有趣的AI:更像人的AI #
好看的皮囊 多模态 #
-
多模态理解能力
- 多模态数据端到端预训练的模型 Gemini
- 工程化 projection layer
- 直接用文本去粘接 encoder、decoder 和文本大模型
- eg【自己动手做出Gemini演示视频的效果】
-
多模态生成能力
- 视频生成
- Live2D,3D 模型
- DeepFake 录制一个真人视频, 把视频中的人脸换成指定的人脸照片
- Image Animation 给定一张照片,随后根据这张照片生成一系列的对应视频
- Video Diffusion 对物理世界的建模 成本最高
- 视频生成
有趣的灵魂 #
-
个性
- 基于prompt 完整地刻画出一个人物的历史、个性、记忆和性格 长文本
- 基于微调的 agent
- 更关键的还是数据
- 对话性语料 & 事实性语料
- 第一步,我们先用对话性语料去微调他的个性和说话风格
- 第二步,再去把事实性语料进行数据清洗后,基于各种角度提问,生成这个人物第一人称口吻的回答,这叫做数据增强
- 更关键的还是数据
-
慢思考与记忆
- 组件 记忆、情感、任务规划、工具
- 长期记忆
- 事实性的记忆
- 总结 文本总结 MemGPT
- RAG 和信息压缩
- 长上下文 长上下文 结合持久化 KV Cache 成本还是太高 【eg. 文本总结 + RAG】
- 程序性的记忆
- few-shot
- 微调 短期来看仍然是效果最好的路线
- 事实性的记忆
有用的AI:更像工具的AI #
大模型基础能力 #
- 复杂任务的规划和分解
- 遵循复杂指令
- 自主使用工具
- 减少幻觉
1P-3P 产品法则 #
-
分类
- 个人助理类
- 商业智能类
-
OpenAI 的 1P-3P 产品法则
- 只要一两个人(1P)开发的产品就自己(first Party)做
- 1P 产品例子
- 导游
- 企业 ERP 助手
- 大模型采集数据
- 手机语音助手
RPA(机器人流程自动化)
- 腾讯的AppAgent 视觉方案
- 会议和生活记录器
- 1P 产品例子
- 需要三个人(3P)以上开发的产品就让第三方(third Party)做
- 只要一两个人(1P)开发的产品就自己(first Party)做
解决复杂任务和使用工具 #
- 慢思考
- 思维链 思维链是非常自然的一种慢思考的模式
- 复杂任务的规划和分解
- 用多步的网络搜索去回答难题
- AI 需要能够按照流程调用工具
- 工具使用属于过程记忆,使用场景和条件不是语言可以明确描述的 使用 fine-tuning 方法告诉模型一些工具使用的样例,甚至在预训练时就加入
- 工具使用可以用代码形式表达,因此属于代码生成能力 使用RAG方法获取到工具使用的代码
参考 #
1xx. AI Agent 应该更有趣还是更有用? ***