RAG 优化 *

朴素RAG Embedding #

Embedding 召回方案及局限性[1] #

召回精度低
粒度过粗
不支持条件查询/统计
不能替代信息提取

解决方案 #

问题理解——准确识别用户意图(传统NLP) [2]
基于关键词Embedding的入库和搜索 [2]
- 关键词提取
  - 实现信息抽取（Information Extraction，IE）
    - 实体关系三元组抽取(RE, Relation Extraction )
    - 命名实体识别(NER, Name-Entity Recognition)
    - 事件抽取(EE, Event Extraction)
- 基于 LLM 提取 [不推荐]
  - 结果不准确、开销也大
- 传统 NLP 方法提取[推荐]
  - 名词短语提取与整合
  - 依存分析
  - 成分句法分析
- 总结从完整语句的 Embedding，切换为关键词 Embedding：
- 优势
  - 相比传统 Embedding，大幅提升召回精准度。
  - 使用传统 NLP 在专项问题处理上，相比 LLM 提供更好的精度和性能。
知识库存储选型
- Vector Store
  - 分片: 区分层级结构
- Relational Database
- Graph Database
  - 图数据检索

行业问答[3] #

挑战 #

版面复杂多样
文本分块 存在知识点被分割、不完整的情况。
多因素影响内容召回效果
- 例如：文档内容相似度高(专业文档细分领域、版本迭代等)；
- 通用的向量相似度算法效果不好(问题与问题匹配 VS问题与答案匹配)；
- 召回率受文档库增大而降低

优化 #

向量化上的优化
- 训练目标优化为提升Query与段落的相关性，使得问题和相关段落的语义向量表示更接近，训练模型有sbert，cosent等
关键信息上的优化
- 在文档内容的信息压缩上，进行文本关键词和摘要的提取
  - 从完整语句的Embedding，切换为关键词Embedding

参考 #

RAG探索之路的血泪史及曙光腾讯 Embedding, Retrieval
LLM+Embedding构建问答系统的局限性及优化方案基于关键词Embedding的入库和搜索的流程图, 结合传统nlp任务
1xx. 基于大语言模型构建知识问答系统
再看业界大模型行业问答的困难及若干业界实践：兼看智能客服常用路线及多场景prompt 问题优化

1xx. 大模型RAG问答研发真实图鉴：一周出Demo，半年用不好，缝补之路漫漫

1xx. 大模型行业落地实践的一些总结和观点：大模型行业问答落地中的现实挑战以及潜在的缓解策略《DataFunCon2023深圳站-20231125-刘焕勇-大模型行业问答的现实挑战及潜在的缓解策略》 pdf

xxx #

1xx. 再看RAG在真实金融文档问答场景的实践方案：SMP2023 金融大模型挑战赛的两种代表实现思路

1xx. 构建企业级 RAG 系统的高级指南 [译]