(原理)Agent 分类[有趣|有用]

有趣的AI:更像人的AI #

好看的皮囊 多模态 #

  • 多模态理解能力

    • 多模态数据端到端预训练的模型 Gemini
    • 工程化 projection layer
    • 直接用文本去粘接 encoder、decoder 和文本大模型
    • eg【自己动手做出Gemini演示视频的效果】
  • 多模态生成能力

    • 视频生成
      • Live2D,3D 模型
      • DeepFake 录制一个真人视频, 把视频中的人脸换成指定的人脸照片
      • Image Animation 给定一张照片,随后根据这张照片生成一系列的对应视频
      • Video Diffusion 对物理世界的建模 成本最高

有趣的灵魂 #

  • 个性

    • 基于prompt 完整地刻画出一个人物的历史、个性、记忆和性格 长文本
    • 基于微调的 agent
      • 更关键的还是数据
        • 对话性语料 & 事实性语料
        • 第一步,我们先用对话性语料去微调他的个性和说话风格
        • 第二步,再去把事实性语料进行数据清洗后,基于各种角度提问,生成这个人物第一人称口吻的回答,这叫做数据增强
  • 慢思考与记忆

    • 组件 记忆、情感、任务规划、工具
    • 长期记忆
      • 事实性的记忆
        • 总结 文本总结 MemGPT
        • RAG 和信息压缩
        • 长上下文 长上下文 结合持久化 KV Cache 成本还是太高 【eg. 文本总结 + RAG】
      • 程序性的记忆
        • few-shot
        • 微调 短期来看仍然是效果最好的路线

有用的AI:更像工具的AI #

大模型基础能力 #

  • 复杂任务的规划和分解
  • 遵循复杂指令
  • 自主使用工具
  • 减少幻觉

1P-3P 产品法则 #

  • 分类

    • 个人助理类
    • 商业智能类
  • OpenAI 的 1P-3P 产品法则

    • 只要一两个人(1P)开发的产品就自己(first Party)做
      • 1P 产品例子
        • 导游
        • 企业 ERP 助手
        • 大模型采集数据
        • 手机语音助手 RPA(机器人流程自动化)
          • 腾讯的AppAgent 视觉方案
        • 会议和生活记录器
    • 需要三个人(3P)以上开发的产品就让第三方(third Party)做

解决复杂任务和使用工具 #

  • 慢思考
    • 思维链 思维链是非常自然的一种慢思考的模式
    • 复杂任务的规划和分解
      • 多步的网络搜索去回答难题
    • AI 需要能够按照流程调用工具
      • 工具使用属于过程记忆,使用场景和条件不是语言可以明确描述的 使用 fine-tuning 方法告诉模型一些工具使用的样例,甚至在预训练时就加入
      • 工具使用可以用代码形式表达,因此属于代码生成能力 使用RAG方法获取到工具使用的代码

参考 #

1xx. AI Agent 应该更有趣还是更有用? ***