首页 未命名 正文

【知识图谱+大模型的紧耦合新范式】Think-on-Graph:解决大模型在医疗、法律、金融等垂直领域的幻觉

 


论文:https://arxiv.org/abs/2307.07697

代码:https://github.com/IDEA-FinAI/ToG

 

幻觉是什么:大模型的「幻觉」问题。

  • 多跳推理路径的探索算法,提高深度推理能力:ToG 通过在知识图谱中动态探索多个推理路径,并利用 beam search 算法挑选最有前景的路径,从而增强了LLMs的深度推理能力。

  • 显式、可编辑的推理路径,增强推理的责任感和可追溯性:通过提供明确的推理路径,ToG不仅增加了推理过程的可解释性,而且允许对模型输出的来源进行追踪和校正,从而提高了推理的责任感和可靠性。

  • 插件式框架,提高大模型的灵活性和效率:通过知识图谱而非LLMs更新知识,可以提高知识的更新频率,降低更新成本,同时增强小型LLMs的推理能力,使其能与大型模型(如GPT-4)竞争。

 

Think-on-Graph 新技术 对比 之前的技术:

(a) LLM-only(只有大模型的情况):

在这个例子中,LLM独立地尝试回答问题:“What is the majority party now in the country where Canberra is located?”。

LLM使用的是链式思考,首先确认堪培拉是澳大利亚的首都,然后基于2021年9月的信息,认为澳大利亚总理是斯科特·莫里森,属于自由党,所以答案应该是自由党。

然而,这个答案是错误的,因为LLM的知识是过时的。

 

(b) LLM ⊕ KG(例如,通过LLM生成的SPARQL查询):

在这种范式下,LLM首先生成一个SPARQL查询来检索知识图谱(KG)。

在这个例子中,查询是为了找到堪培拉的国家,并检索该国家的主要政党。

由于知识图谱中不存在“majority party”的相关信息,这种方法未能得出正确答案。

 

© LLM ⊗ KG(例如,Think-on-Graph):

这个范式展示了LLM与知识图谱紧密协作。

首先,LLM通过探索知识图谱中与堪培拉有关的三元组(triples)。

然后,通过“Think”步骤,它找到了最相关的三元组是(澳大利亚,首相,安东尼·阿尔巴尼斯)。

由于LLM知道安东尼·阿尔巴尼斯属于劳工党,并且自2019年以来一直是澳大利亚劳工党(ALP)的领导者,因此能够推断出正确答案是劳工党。

 

所以,Think-on-Graph 这种LLM与知识图谱的新技术,效果也是最好的。

  • LLM ⊗ KG (Think-on-Graph) 方法通过结合LLM的动态推理能力和KG的丰富、结构化知识
  • 显著提升了解答的准确性和可靠性
  • 解决了仅使用LLM时的知识过时问题 和 LLM与KG结合时的信息缺失问题

 

Think-on-Graph 工作流程:

工作流程分为三个深度搜索阶段(Depth 1、Depth 2、Depth 3),逐步深化搜索,每个阶段都深入探索与前一阶段发现的实体相关的更多信息。

  • 以回答问题:“堪培拉所在的国家目前的主要政党是什么?”
  1. Depth 1:识别问题中的关键实体(堪培拉)和与其直接相关的属性(它是哪个国家的首都)。

    • 搜索: 以堪培拉为中心,探索相关实体和关系。
    • 剪枝: 对探索结果进行评估,保留重要的实体和关系,淘汰评分低的部分。在这个阶段,确定堪培拉是一个地域,是澳大利亚的首都。
  2. Depth 2:以第一阶段确定的国家(澳大利亚)为中心,进一步探索与政府头目(首相)相关的信息。

    • 搜索: 以澳大利亚为中心,进一步探索与政府、首相等相关的实体和关系。
    • 剪枝: 继续评估和淘汰,确定了澳大利亚的首相是安东尼·阿尔巴尼斯。
  3. Depth 3:最后,确定首相(安东尼·阿尔巴尼斯)的政党隶属,从而得出国家的主要政党。

    • 搜索: 最后以安东尼·阿尔巴尼斯为中心,搜索与政党相关的实体和关系。
    • 剪枝: 最终找到安东尼·阿尔巴尼斯与劳工党的关系。

在每个深度的搜索和剪枝过程中,发光的实体代表中心实体,粗体实体代表被选中的中心实体。

图中的边缘的黑暗度代表了由LLM给出的评分,虚线表示由于评分低而被剪枝的关系(精准回答,避免模糊宽泛)。

最终,基于这些推理路径,生成的答案是“Labor Party”(劳工党)。

本质:ToG通过逐步深入的探索和剪枝过程,结合LLM的推理能力和KG的丰富数据,动态构建推理路径以提供精准且可追溯的答案。

 


ToG 算法步骤:想想再查,查查再想

ToG方法的主要问题是如何利用LLM进行深度推理以回答基于知识图谱的复杂问题。

ToG是通过 beam search 在知识图谱上执行搜索,以此来解决问题。

  1. 子问题1:初始化图搜索。

    • 子解法1:定位初始实体。
      之所以使用这个解法,是因为需要在知识图谱中确定起始点,这是构建推理路径的基础。
  2. 子问题2:探索。

    • 子解法2.1:关系探索。
      用于从当前已知实体探索可能的关系,因为这有助于确定接下来可能的推理方向。
    • 子解法2.2:实体探索。
      接着用于从已知关系探索相关实体,因为这可以进一步扩展推理路径。
  3. 子问题3:推理。

    • 子解法3:评估推理路径。
      之所以使用此解法,是因为需要评估当前推理路径是否足够回答问题,如果足够则生成答案,否则继续探索和推理过程。

 

还有 ToG-R(基于关系的Think-on-Graph 变种):

  1. 子问题1:减少LLM调用次数。

    • 子解法1:随机剪枝。
      之所以使用这个解法,是因为它减少了使用LLM进行实体剪枝的需要,这样可以降低总体成本和推理时间。
  2. 子问题2:强调关系文字信息。

    • 子解法2:关系链探索。
      选择这种解法是因为它强调了关系的文字信息,当中间实体的文字信息缺失或LLM不熟悉时,可以减少误导推理的风险。

ToG 方法的本质在于,通过LLM执行的知识图谱上的beam search,分阶段探索和评估推理路径,以便深度推理出复杂问题的精确答案,而 ToG-R 进一步减少了LLM调用,强调文字信息,提高了效率和鲁棒性。

  • 初始化图搜索的问题,通过定位初始实体的子解法来解决。
  • 探索问题,通过关系探索和实体探索两个子解法来解决。
  • 推理问题,通过评估推理路径的子解法来解决。
  • ToG-R 特有的问题,通过随机剪枝和关系链探索两个子解法来解决。

 
假设我们要回答的问题是:“谁是最近一次举办奥运会的国家的现任总统?”

  1. 初始化图搜索:

    • 我们首先利用LLM确定问题中的关键实体“最近一次举办奥运会的国家”,并将其作为搜索的起始点。
  2. 探索:

    • 关系探索:
      在知识图谱中搜索与“奥运会举办国”相关的实体关系,比如“举办年份”和“国家”。
    • 实体探索:
      接下来,我们基于“举办年份”这一关系,探索出最近一次举办奥运会的具体国家,例如“日本”。
  3. 推理:

    • 根据已经探索到的信息,评估是否有足够的数据来回答原问题。
    • 如果已知的国家“日本”和关系“现任总统”足够回答问题,我们就进行下一步;
    • 如果不足够,就需要进一步的探索和推理。

在ToG-R中,如果在实体探索阶段关系信息不够充分,我们可能会采用随机剪枝策略,选择一个可能的实体,例如随机选择一位政治人物,然后继续下一轮探索。

 


实验结果

ToG这个算法通过在各种不同的数据集上的测试显示出它很擅长处理需要多步逻辑推理的复杂问题,这得益于它能够在多个层面上全面理解和应用知识图谱中的信息。

  • 在和其他方法的比较中,ToG特别展现了它的泛化能力,即使在没有针对特定问题集进行训练的情况下,它也能提供准确的答案。

实验中还特别考察了不同大小的语言模型对ToG的影响。

  • 结果表明,更大的模型能够更好地发挥知识图谱的潜力,但即便是较小的模型,ToG也能超越只用最大模型的传统方法。
  • 这意味着使用ToG,我们可以用更经济的小模型来代替昂贵的大模型,特别是在那些外部知识图谱能提供帮助的特定场景中。

此外,ToG的性能也受到搜索深度和宽度的影响,通过调整这两个参数,ToG的表现有所提升,尽管提升的幅度在深度超过一定阈值后会减弱。

  • 在提高性能的同时也要考虑到计算成本。

不同知识图谱的选择也对ToG的表现有显著影响。

  • 例如,在构建于Freebase上的数据集中,ToG的表现更好,这显示了匹配度高的知识图谱对提升性能至关重要。

  • 而且,不同的提示设计,如三元组格式相比自然语言句子,对于ToG来说也有更好的效果。

在探索过程中使用不同的剪枝工具也会影响ToG的表现。

  • 实验表明,与BM25或SentenceBERT相比,使用LLM作为剪枝工具可以获得更好的结果,尽管后者在效率上有优势。

最后,ToG的一个独特之处在于它提供了知识的追溯性和可校正性。

  • 如果用户发现了推理过程中的错误,他们可以通过ToG回溯并纠正知识图谱中的错误信息。
  • 不仅增强了LLM使用知识图谱的能力,还提升了知识图谱本身的质量。

ToG(透过图的推理)提供的知识追溯性和可校正性是指用户可以追踪和修正知识图谱中的数据,这有助于提高推理过程的准确性和知识库的整体质量。下面通过一个例子来具体说明这一点:

 

假设一个糖尿病患者在使用一个基于ToG的系统查询如何调整饮食以控制血糖时,系统推荐了一个包含多种豆类的饮食计划。患者遵循了这一计划,但发现血糖水平并没有改善,反而出现了波动。

追溯性与可校正性的应用
  1. 追溯错误信息

    • 患者或医疗专家可以使用ToG系统查看推荐该饮食计划的推理过程及其依赖的知识点。通过系统,他们发现系统错误地将某些具有高升糖指数(GI值)的豆类(例如烘烤的豆类)标记为低GI食物。
  2. 修正知识图谱

    • 一旦错误被识别,用户或专家可以直接在知识图谱中更正这些豆类的GI值分类。例如,将烘烤豆类的GI值从“低”更新为“高”。
  3. 更新推理过程

    • 知识图谱更新后,ToG系统将利用这些更正后的信息重新计算和更新推荐的饮食计划。在未来的查询中,系统将避免推荐那些高GI值的豆类给试图控制血糖的糖尿病患者。
结果与影响
  • 提升知识库质量:通过这种反馈和修正机制,知识图谱的准确性得到了提升,使得系统的建议更加靠谱和科学。
  • 增强LLM的使用效果:随着知识图谱的持续优化,基于ToG的LLM能够提供更加准确和个性化的建议,从而提升用户满意度和系统的可信度。

这种追溯性和可校正性使ToG不仅是一个信息提供者,而且成为一个持续学习和进步的智能系统。这对于需要准确医疗建议的领域尤其重要,如糖尿病管理,确保提供的信息能够及时反映最新的研究成果和实践经验。

 

针对糖尿病患者如何调整饮食以控制血糖水平的问题,我们可以比较逐步推理方法和单纯知识图谱与大型语言模型(LLM)结合方法的详细过程:

1. 逐步推理方法

初始搜索:确定糖尿病类型

  • 模型首先确认病人的糖尿病类型(1型或2型),因为不同类型可能需要不同的饮食管理策略。
  • 推理:1型糖尿病患者通常需要严格的胰岛素管理,而2型糖尿病患者可能更多地依赖于生活方式调整。

扩展搜索:饮食原则

  • 模型搜寻适用于该类型糖尿病的饮食原则,如碳水化合物计数、糖分摄入限制等。
  • 推理:提供基于病人类型的一般性饮食建议,如2型糖尿病患者避免高糖食品,1型糖尿病患者注重餐后血糖的控制。

详细搜索:具体食物建议和最新研究

  • 深入研究具体食物选择,如推荐的低GI(升糖指数)食品,以及根据最新研究调整的建议。
  • 推理:结合最新的营养研究和临床指南,提供具体的食物列表和饮食计划,以优化血糖控制。

整合信息并提供个性化建议

  • 综合上述信息,提供一个详细的饮食计划,包括具体食物、饮食时间和可能的替代选择。
  • 推理:这种个性化的饮食指导帮助患者根据自身条件和最新研究有效地管理血糖。
2. 单纯知识图谱和大型语言模型结合

查询知识图谱获取饮食原则

  • 利用知识图谱查询糖尿病相关的通用饮食建议,如“糖尿病饮食原则”。
  • 推理:提供一般性的建议,可能不具体到病人类型或最新研究。

使用大型语言模型搜索典型食物建议

  • LLM基于存储的信息提供一些常见的适合糖尿病患者的食物,例如高纤维食物、全谷物等。
  • 推理:这些建议基于广泛的指导而非针对个体的最新研究。

缺乏最新研究的整合

  • 此方法可能无法实时更新或反映最新的研究和临床试验结果,因此在提供最前沿建议方面可能有所不足。
  • 推理:建议可能不如逐步推理方法那样精确或个性化,尤其是在新兴治疗和饮食研究快速发展的领域。
对比总结

逐步推理方法通过层级化和动态的数据分析提供更精确、个性化的建议,特别是在考

虑最新科学研究和个别患者情况时。而单纯知识图谱和大型语言模型结合的方法虽然能快速提供基础信息,但可能缺乏针对性和时效性,尤其是在需要应对个体差异和最新研究的情况下。

根据用户个性化

之前描述的个性化主要依靠区分糖尿病的类型,而真正的个性化应该更细致,涵盖更多个体差异,例如患者的生活方式、年龄、并发症等因素。以下是如何通过逐步推理方法实现更深层次的个性化:

进阶的个性化逐步推理方法

假设问题依旧是:“糖尿病患者应该如何调整饮食以控制血糖水平?”下面的推理过程展示了如何实现更深入的个性化建议:

  1. 初始搜索:详细病历分析

    • 模型首先收集患者的详细信息,包括糖尿病类型(1型或2型),同时也考虑年龄、性别、体重、活动水平以及是否有其他健康问题(如高血压或心脏疾病)。
    • 推理:这些信息有助于模型理解患者的具体状况,为其量身定制饮食计划。
  2. 扩展搜索:综合考虑生活方式

    • 模型分析患者的生活方式,如饮食习惯、工作类型和运动频率。
    • 推理:结合生活方式的细节,可以推荐更符合个人日常习惯和实际可行性的饮食调整。
  3. 详细搜索:特定需求和偏好

    • 进一步询问患者对食物的偏好和不耐受情况,如对乳糖不耐受或对某些食物过敏。
    • 推理:通过考虑食物偏好和健康限制,可以确保饮食计划不仅科学合理,而且符合患者的实际接受程度,增加遵循性。
  4. 综合信息并制定具体饮食计划

    • 将所有信息整合,形成一份综合的饮食建议,包括具体食品、建议摄入量和饮食时间。
    • 推理:这种综合的建议基于患者的医疗需要和个人偏好,考虑到最新的医疗研究和营养指南,使得饮食计划既科学又实用。

通过这种方法,逐步推理不仅基于疾病的类型,而且深入到患者的个人生活细节和健康需求,实现真正意义上的个性化治疗。这样的个性化能够确保建议更加精确且易于患者接受和遵循,从而有效提高治疗的效果和患者的生活质量。

然而,当涉及到个性化用户体验,特别是需要考虑用户个人偏好、历史行为或具体需求的情境时,这种方法的适用性可能会受到限制。个性化通常涉及以下方面:

  1. 数据收集:收集用户的个人数据和偏好设置。
  2. 动态调整:根据用户的行为和反馈调整推荐和响应。
  3. 情境感知:理解和利用用户当前的情境和需求。
在糖尿病管理中实现用户个性化

假设系统需要为糖尿病患者推荐个性化饮食计划。这将需要:

  • 收集个人健康数据:包括糖尿病类型、血糖水平、其他健康状况、饮食偏好等。
  • 用户反馈处理:用户可以提供反馈,如饮食计划的实际效果和偏好变化,系统需据此调整推荐。
  • 实时更新:根据最新的医疗研究和用户健康数据更新饮食建议。

虽然在处理事实基础的查询中表现出结构化和系统性,但在处理需要深度个性化和实时动态调整的问题时,可能不足以直接应用。它缺乏收集和利用个人化数据的机制,以及根据这些数据动态调整输出的能力。对于如糖尿病管理这样需要高度个性化的应用,可能需要更复杂的数据处理和机器学习模型,以实现真正的个性化服务。

相关推荐

  • 暂无相关文章