文章转自公众号老刘说NLP
最近在想,很有趣的是,大家做了那么多,没有一个完美方案,总结的来说:监督微调计算成本高且容易过拟合;上下文学习(ICL)依赖于手工模板,效率低且难以处理长上下文;检索增强生成(RAG)依赖于检索文档的质量和相关性,计算成本高;知识图谱(KG)方法需要大量手动构建和维护,扩展性差。
所以,RAG这个补丁越打越多,并且是针对不同的任务再花式地打,所以,这里来回顾下最近一周值得关注的几个工作进展。
一个是关于推理规则用于RAG的一些思路,知识图谱本身也可以作为一些规则约束加进去,关键是怎么挖掘规则,匹配规则。另一个是KGQA范式下的GraphRAG代表工作及EGO-GraphRAG组合设计,这是对昨天话题的延续;另一个是RAG怎么跟之前传统的知识补全模型打配合。
整个技术路线都是有感的,大家可以看看,也可以作为索引,形成自己的体系,总会有些帮助。
可以看一个关于GraphRAG进展,《EGO-GraphRAG: Modularizing Graph-based Retrieval-Augmented Generation for Design Space Exploration》,https://arxiv.org/pdf/2411.05844,其中针对KGQA范式下的GraphRAG做了一些索引,并针对各个模块的内容做了组合实验,其中有很多关键的技术点可供我们索引。
其出发点在于,现有的RAG方法主要依赖于文档检索,容易引入噪声和冗余信息。最新的趋势是发展基于图的RAG框架(GraphRAG),通过图结构来提取特定的“推理路径”,从而提供更精确和相关的信息。这里面一个重要的点,是怎么找到最佳的路径。