RAG 优化 *

朴素RAG Embedding #

Embedding 召回方案及局限性[1] #

  • 召回精度低
  • 粒度过粗
  • 不支持条件查询/统计
  • 不能替代信息提取

解决方案 #

  • 问题理解——准确识别用户意图(传统NLP) [2]

  • 基于关键词Embedding的入库和搜索 [2]

    • 关键词提取
      • 实现信息抽取(Information Extraction,IE)
        • 实体关系三元组抽取(RE, Relation Extraction )
        • 命名实体识别(NER, Name-Entity Recognition)
        • 事件抽取(EE, Event Extraction)
    • 基于 LLM 提取 [不推荐]
      • 结果不准确、开销也大
    • 传统 NLP 方法提取[推荐]
      • 名词短语提取与整合
      • 依存分析
      • 成分句法分析
    • 总结 从完整语句的 Embedding,切换为关键词 Embedding
    • 优势
      • 相比传统 Embedding,大幅提升召回精准度
      • 使用传统 NLP 在专项问题处理上,相比 LLM 提供更好的精度和性能。
  • 知识库存储选型

    • Vector Store
      • 分片: 区分层级结构
    • Relational Database
    • Graph Database
      • 图数据检索

行业问答[3] #

挑战 #

  • 版面复杂多样
  • 文本分块 存在知识点被分割、不完整的情况
  • 多因素影响内容召回效果
    • 例如:文档内容相似度高(专业文档细分领域、版本迭代等);
    • 通用的向量相似度算法效果不好(问题与问题匹配 VS问题与答案匹配);
    • 召回率受文档库增大而降低

优化 #

  • 向量化上的优化

    • 训练目标优化为提升Query与段落的相关性,使得问题和相关段落的语义向量表示更接近,训练模型有sbertcosent
  • 关键信息上的优化

    • 在文档内容的信息压缩上,进行文本关键词和摘要的提取
      • 从完整语句的Embedding,切换为关键词Embedding

参考 #

  1. RAG探索之路的血泪史及曙光 腾讯 Embedding, Retrieval

  2. LLM+Embedding构建问答系统的局限性及优化方案 基于关键词Embedding的入库和搜索的流程图, 结合传统nlp任务
    1xx. 基于大语言模型构建知识问答系统

  3. 再看业界大模型行业问答的困难及若干业界实践:兼看智能客服常用路线及多场景prompt 问题 优化

1xx. 大模型RAG问答研发真实图鉴:一周出Demo,半年用不好,缝补之路漫漫

1xx. 大模型行业落地实践的一些总结和观点:大模型行业问答落地中的现实挑战以及潜在的缓解策略 《DataFunCon2023深圳站-20231125-刘焕勇-大模型行业问答的现实挑战及潜在的缓解策略》 pdf

xxx #

1xx. 再看RAG在真实金融文档问答场景的实践方案:SMP2023 金融大模型挑战赛的两种代表实现思路

1xx. 构建企业级 RAG 系统的高级指南 [译]