(原理)Agent 分类[有趣|有用]

有趣的AI：更像人的AI #

好看的皮囊多模态 #

多模态理解能力
- 多模态数据端到端预训练的模型 Gemini
- 工程化 projection layer
- 直接用文本去粘接 encoder、decoder 和文本大模型
- eg【自己动手做出Gemini演示视频的效果】
多模态生成能力
- 视频生成
  - Live2D，3D 模型
  - DeepFake 录制一个真人视频，把视频中的人脸换成指定的人脸照片
  - Image Animation 给定一张照片，随后根据这张照片生成一系列的对应视频
  - Video Diffusion 对物理世界的建模成本最高

有趣的灵魂 #

个性
- 基于prompt 完整地刻画出一个人物的历史、个性、记忆和性格长文本
- 基于微调的 agent
  - 更关键的还是数据
    - 对话性语料 & 事实性语料
    - 第一步，我们先用对话性语料去微调他的个性和说话风格
    - 第二步，再去把事实性语料进行数据清洗后，基于各种角度提问，生成这个人物第一人称口吻的回答，这叫做数据增强
慢思考与记忆
- 组件 记忆、情感、任务规划、工具
- 长期记忆
  - 事实性的记忆
    - 总结文本总结 MemGPT
    - RAG 和信息压缩
    - 长上下文 长上下文 结合持久化 KV Cache 成本还是太高【eg. 文本总结 + RAG】
  - 程序性的记忆
    - few-shot
    - 微调短期来看仍然是效果最好的路线

有用的AI：更像工具的AI #

大模型基础能力 #

复杂任务的规划和分解
遵循复杂指令
自主使用工具
减少幻觉

1P-3P 产品法则 #

分类
- 个人助理类
- 商业智能类
OpenAI 的 1P-3P 产品法则
- 只要一两个人（1P）开发的产品就自己（first Party）做
  - 1P 产品例子
    - 导游
    - 企业 ERP 助手
    - 大模型采集数据
    - 手机语音助手 RPA（机器人流程自动化）
      - 腾讯的AppAgent 视觉方案
    - 会议和生活记录器
- 需要三个人（3P）以上开发的产品就让第三方（third Party）做

解决复杂任务和使用工具 #

慢思考
- 思维链 思维链是非常自然的一种慢思考的模式
- 复杂任务的规划和分解
  - 用多步的网络搜索去回答难题
- AI 需要能够按照流程调用工具
  - 工具使用属于过程记忆，使用场景和条件不是语言可以明确描述的使用 fine-tuning 方法告诉模型一些工具使用的样例，甚至在预训练时就加入
  - 工具使用可以用代码形式表达，因此属于代码生成能力 使用RAG方法获取到工具使用的代码

参考 #

1xx. AI Agent 应该更有趣还是更有用？ ***