Introduction
大型语言模型在各种下游自然语言理解和生成任务中取得了显著的成果,这些任务通过精心设计的语言提示完成。
尽管LLMs在生成流畅且连贯的自然语言响应方面具有显著的能力,但在执行知识密集型任务时,会受到幻觉和事实错误的困扰。这些问题的根本原因在于参数知识的黑盒特性,这使得定位和更新存储在参数中的知识事实变得困难。这导致了两个主要挑战,阻碍了LLMs在知识密集型任务中的适应性。
一方面,LLM缺乏负责任的事实知识。由于修订和扩展参数知识是具有挑战性的,LLMs很难获取各个领域中最新的更新。因此,当遇到需要最新或特定领域知识的问题时,LLMs可能难以根据静态的参数知识提供负责任的答案。尽管可以使用精心设计的提示将复杂问题分解为多个步骤,以增强LLMs的逻辑推理能力,但很难完全弥补缺乏明确事实知识的问题。因此,尤其是在需要对主题实体有准确和深入理解以生成正确响应的任务中,精心设计的提示的好处会减少,换言之,即使问题分解的再好,但因为模型缺失明确的事实知识而无法给出明确的答案。
另一方面,与知识检索器的认知差距。通过外部知识图谱增强LLMs是解决上述知识缺乏问题的自然且有前景的解决方案。知识图谱(KGs)是结构化、明确且负责任的,可以提供可靠的知识子图谱来明确增强LLMs的知识感知推理过程。然而,LLMs和知识检索器之间在理解和推理上的认知差距显著限制了LLM+KG范式的表现。知识检索器通常基于表示相似性优先考虑知识事实,但在此背景下的相关性并不一定保证对LLMs的具体推理任务有用。这种认知差距导致LLMs被迫不断评估零散知识事实的有用性,并反复调用知识检索器以提供足够的知识进行推理。这导致LLM+KG范式的复杂性和成本显著增加。
为了解决以上问题,本文提出了一个基于知识图谱的链式思考提示方法(KG-CoT),这是一个新颖的知识增强框架,它利用逐步图推理模型以即插即用的方式为LLMs提供负责任的知识链。为了解决缺乏负责任的事实知识,本文提出了一个逐步图推理模型来对知识图谱(KGs)进行推理。从问题实体开始,逐步图推理模型计算KG中关系得分,并为每个推理步骤构建转移矩阵。通过利用转移矩阵,图推理模型可以在KG中遍历各种路径,在关系之间跳跃,并探索对解决问题具有高信心的实体。为了解决LLMs和知识检索器之间的认知差距,本文开发了一种推理路径生成方法。从问题实体开始,它追溯逐步推理过程,并沿着转移矩阵生成明确的推理路径。通过这种方式,图推理模型可以插入LLMs并使LLMs能够在KG上进行联合推理。
Method
KG-CoT通过应用小型图推理模型在知识图谱上进行推理,并生成LLMs推理中高置信度的推理路径,以此来增强LLMs的相关知识。首先,本文提出了一个图推理模型来执行KGs上的逐步推理,并找到高置信度的候选实体。然后,本文引入了推理路径生成方法,基于逐步推理过程来生成推理路径。最后,本文利用这些推理路径来提示LLMs生成答案,下图是该方法总体框架图:
逐步图推理模型
基于先前的语义解析模型已经展示出自然语言问题可以被转换成它的逻辑形式,这被称为查询图。这些发现表明复杂问题可以被分解为在知识图谱(KGs)上的多个元问题,这与链式思考提示相似。受此启发,本文提出了一个图推理模型来模仿问题分解和在KGs上的逐步推理。
初始化
设G表示知识图谱(KG) ,n 表示实体集合中的实体数量,m 表示关系集中的关系数量。本文首先初始化一个实体状态,这是一个一位有效向量,用于指示问题上下文中是否提到了相应的实体。例如,如果问题中只提到了第 i 个实体,那么 被初始化为1,其他都设置为0。此外,本文初始化一个三元组矩阵,这是一个一位有效矩阵,用于指示实体 i<n实体 j<n之间是否存在关系 k,如果存在,则 。
关系分数计算
本文将图推理过程分为 T 步。在步骤 t<T 时,本文为知识图谱中的所有关系计算得分。每个关系的得分表示在当前步骤中每个关系被选中的可能性,关系得分的计计算如下:
其中 是步骤 t的问题表示,这个表示捕捉了在该步骤中对问题最相关的信息。通过这种方式,可以隐式地分解问题,并迫使图推理模型在不同的步骤关注不同的关系。在步骤 t,问题表示可以如下计算:
其中 是问题嵌入,是与问题相关联的一系列隐藏状态。 用于将问题嵌入 q投影到步骤 t的注意力查询。本文计算注意力权重并通过隐藏状态的加权和来计算步骤 t 的问题表示。
逐步推理
基于关系得分,本文首先定义了一个一个转移矩阵 ,用于描述从当前实体状态到下一个实体状态 的转换的可能性。本文利用三元组矩阵 M 和关系得分来构建转移矩阵,公式如下:
其中 k是实体 i 和 j 之间关系的索引,是关系 k 的得分。最后,本文可以利用转移矩阵在知识图谱(KG)上执行逐步推理。
逐步推理过程可以如下公式化:
当前实体 沿着它们一跳邻域内的关系“跳跃”,根据关系得分传递到下一个实体状。
经过 T 步推理后,本文利用问题嵌入 q 确定每一步的权重分布,也就是说每个步骤对最终答案的贡献程度,并通过取每一步实体得分的加权和来计算最终实体得分。
训练
给定黄金答案向量,它指示相应实体是否是答案实体。作者使用 和 a 之间的L2欧几里得距离来优化逐步图推理模型:
推理路径生成方法
在推理过程中,一旦通过图推理模型获得了前k个实体,就利用转移矩阵来生成推理路径。
初始化
在生成推理路径的过程中,本文维护两个列表和,它们用于存储候选推理路径和中间路径。
提取
从问题实体开始,作者首先提取相应的行,,这表示从问题实体在步骤 t=0转移到步骤 t=1的实体的关系得分。通过这种方式,本文可以提取一组一跳路径:
其中“key”是提取的路径,“value”是其中的关系得分。 表示实体 i和 j之间的关系。对于每条路径,首先将其添加到 。
如果目标实体包含在前k个答案实体中,然后将提取的路径添加到。从1跳路径在 中的目标实体开始,使用提取2跳路径:
并更新和
通过重复上述算法 T步,便可以从问题实体生成到前 k个实体的候选推理路径。
排名
每个答案实体可能对应于 中的多个候选路径,并且不同路径的跳跃次数各不相同。因此,作者取每条路径中关系得分的平均值作为最终路径得分。
联合推理
对于置信度最高的前 K 个候选实体,本文为每个候选实体提取具有最高路径得分的路径。因此,对于每个问题,利用逐步图推理模型和推理路径生成方法生成具有不同跳跃次数和答案实体的 K条推理路径。
为了保持链式结构,作者使用“箭头”连接实体和关系以构建KG-CoT。
被序列化为文本句子,其公式如下:
()
本文将 K条推理路径序列化,并与问题上下文连接作为最终输入序列。利用详细的指令提示LLMs,利用这些推理路径生成答案。
Experiments
DateSets
WebQSP
WebQSP是一个知识密集型的多跳问答基准测试。它包含4,037个问题,这些问题都是基于Freebase的1跳或2跳问题。基于之前的工作,本文检索了问题实体2跳邻域内的知识三元组,并生成了一个包含1,886,684个实体、1,144个关系和5,780,246个知识三元组的知识子图。
CompWebQ:
CompWebQ是一个多跳问答基准测试。它包含34,672个问题,这些问题涉及多个跳转和约束,这使得大型语言模型(LLMs)处理起来具有挑战性。本文利用了检索到的知识子图,并使用原始数据分割进行评估。
SimpleQuestions
SimpleQuestions是一个单跳问答基准测试。问题是基于Freebase的信息生成的,最终在这项研究中生成了108,442个严重依赖事实知识的问题。随机选择了1,000个问题,并检索了问题实体的1跳邻域用于评估。
WebQuestions
WebQuestions是一个具有挑战性的开放领域问答基准测试。它包含5,810个问题,以Freebase作为知识库。对于每个问题,本文检索了问题实体的2跳邻域,并利用原始数据分割进行评估。
BaseLines
与上述基准数据集相比,作者与强大的基线(例如标准提示基线、最先进的检索增强 (RA) 基线和知识库问答 (KBQA) 基线)进行比较。
Prompting Baselines.
本文将其与原始的输入输出(IO)提示、链式思考(CoT)提示和自我一致性(SC)进行了比较。
Retrieval-Augmented Baselines.
作者选择了每个基准测试之前的最先进(SOTA)技术,包括直接事实检索DiFaR 、基于案例的推理CBR ,以及编码器中的融合FiE。
Knowledge Base Question Answering Baselines.
本文将其与每个基准测试上之前最先进的知识库问答模型进行了比较,包括UniKGQA和 RNG。
LLM+KG Baseline.
本文还与最近的KG增强基线ToG 进行了比较。与作者的动机不同,它指导LLM本身执行检索、修剪和答案预测。
Main Results
如下表所示,对于单跳和开放域问答基准测试,作者提出的KG-CoT也实现了与之前最先进基准相比具有竞争力的表现。
值得注意的是,对于简单但知识密集的基准测试,仅依赖于参数知识的LLMs即使使用CoT提示也难以生成正确答案。一方面,结果展示了本文提出的KG-CoT在增强LLMs时,通过提供明确的推理路径的有效性。另一方面,这些结果与LLMs的先前发现一致,表明这些标准提示方法对于需要广泛事实知识的复杂问题的有效性降低。
在CompWebQ基准测试中,本文提出的KG-CoT与ChatGPT相结合,比标准提示基线提高了37.2%。观察到KG-CoT的性能趋势与其它问答基准测试相比有所不同。这种差异归因于作者提出的图推理模型在这个具有挑战性的多跳问答基准测试中表现不佳,因此在CompWebQ上取得了适度的改进。
Comparison with Different LLM Backbones
为了进一步研究本文提出的KG-CoT的通用性,作者在不同的LLM基础上评估了KG-CoT,例如开源的LLMs(例如Llama-7B和Llama-13B)和闭源的LLMs(例如ChatGPT和GPT-4)。
如下表所示,作者提出的KG-CoT在所有LLM基础上都取得了显著的改进。随着LLMs智能的提高,KG-CoT的性能持续改善。当Llama2-13B、ChatGPT和GPT-4被用作基础模型时,LLM+KG-CoT的表现优于现有的最先进的知识图谱问答(KGQA)基线。
Case Study
如下表所示,作者进一步研究了KG-CoT如何通过提供准确的事实知识和可解释的推理路径来增强LLMs的推理能力。
对于问题:“多娜安娜桥下流过的河流源头是什么?”,原始提示方法受到幻觉问题的影响,导致错误答案“柳溪”。相反,KG-CoT将问题实体链接到Freebase,并利用我们提出的逐步推理模型提取高置信度的推理路径,使LLMs能够利用负责任且可解释的推理路径生成正确答案。
Conclusion
在这项工作中,作者提出了一种新颖的基于知识图谱的链式思考(KG-CoT)提示方法,它利用轻量级的逐步图推理模型以即插即用的方式为大型语言模型(LLMs)提供负责任的事实知识和明确的推理路径。
这种“大+小”的范式减轻了LLMs推理的负担,并使得与外部世界知识的联合推理成为可能。在4个知识密集型问答基准测试上的广泛实验表明了本文提出的KG-CoT的有效性,并且可以提供明确的推理路径以提高可解释性。同时本文展示了KG-CoT能够利用更少的带宽并降低推理成本,从而增强各种LLMs的知识感知推理能力。
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习