Page 1 of 1

谷歌研究人员利用“充分上下文”信号改进 RAG

Posted: Sun Mar 23, 2025 9:25 am
by mdarafat5724
谷歌研究人员介绍了一种改进人工智能搜索和助手的方法,即增强检索增强生成 (RAG) 模型识别检索到的信息是否缺乏足够的背景信息来回答查询的能力。如果实施,这些发现可以帮助人工智能生成的响应避免依赖不完整的信息并提高答案的可靠性。这种转变还可能鼓励发布者创建具有足够背景信息的内容,使他们的页面更​​适合人工智能生成的答案。

他们的研究发现,Gemini 和 GPT 等模型经常在检索到的数据包含的背景信息不足时尝试回答问题,从而导致幻觉而不是放弃回答。为了解决这个问题,他们开发了一个系统,通过帮助 LLM 确定检索到的内容何时包含足够的信息来支持答案来减少幻觉。

检索增强生成 (RAG)系统使用外部背景来增强 LLM,以提高问答准确性,但幻觉仍然会出现。目前尚不清楚这些幻觉是源于 LLM 误解还是检索到的背景不足。该研究论文介绍了充分背景的概念,并描述了一种确定何时有足够信息来回答问题的方法。

他们的分析发现,Gemini、GPT 和 Claude 等专有模型在提供足够的背景信息时往往会提供正确答案。然而,当背景信息不足时,它们有时会产生幻觉而不是弃权,但它们也有 35-65% 的时间能正确回答。最后一项发现又带来了另一项挑战:知道何时进行干预以迫使弃权(不回答)以及何时相信模型能够正确回答。


定义充分上下文
研究人员将充分背景定义为检索到的信息(来自 RAG)包含得出正确答案所需的所有细节。将某事物归类为包含充分背景并不要求它是经过验证的答案。它只是评估是否可以从提供的内容中合理地得出答案。

这意味着分类不是在验证正确性,而是评估检索到的信息是否为回答查询提供了合理的基础。

背景不足意味着检索到的信息不完整、具有误导性或缺少构建答案所需的关键细节。

另请参阅: 微软研究院:生成检索排名答案

充分上下文自动评分器
充分上下文自动评分器是一个基于 LLM 的系统,它将查询上下文对分类为具有充分或不充分上下文。表现最佳的自动评分器模型是 Gemini 1.5 Pro (1-shot),准确率达到 93%,优于其他模型和方法。

通过选择性生成减少幻觉
研究人员发现,当检索到的数据缺乏背景信息时,基于 RAG 的 LLM 响应能够以 35-62% 的正确率回答问题。这意味着充足的背景信息并不总是提高准确率的必要条件,因为模型在没有背景信息的情况下也能以 35-62% 的正确率返回正确答案。

他们利用对这种行为的发现,创建了一种选择性生成方法,该方法使用置信度分数(自我评估的答案可能正确的概率)和足够的上下文信号来决定何时生成答案以及何时弃权(以避免做出不正确的陈述和产生幻觉)。这实现了在允许 LLM 在非常确定问题正确时回答问题与在有足够或不足的上下文来回答问题时弃权之间的平衡。

研究人员描述了它的工作原理:

“……我们利用这些信号训练一个简单的线性模型来预测幻觉,然后用它来设置覆盖率-准确度权衡阈值。
这种机制在两个关键方面不同于其他改善戒断的策略。首先,由于它独立于生成而运行,因此可以减轻意外的下游影响……其次,它提供了一种可控的机制来调整戒断,允许在不同应用中使用不同的操作设置,例如在医疗领域严格遵守准确度或在创意生成任务上实现最大覆盖率。”

总结
在有人开始声称上下文充分性是排名因素之前,需要注意 阿富汗电话号码数据 的是,研究论文并未指出 AI 始终会优先考虑结构良好的页面。上下文充分性是一个因素,但通过这种特定方法,置信度分数还会通过干预弃权决定来影响 AI 生成的响应。弃权阈值会根据这些信号动态调整,这意味着如果置信度和充分性都较低,模型可能会选择不回答。

订阅每日搜索洞察
精炼 AI、PPC 和数字营销新闻,助力成功。加入其他 75,000 名营销人员!


电子邮件*

虽然包含完整且结构良好的信息的页面更有可能包含足够的上下文,但其他因素(例如 AI 如何选择和排列相关信息、确定检索哪些来源的系统以及 LLM 如何接受培训)也发挥着作用。如果不考虑决定 AI 如何检索和生成答案的更广泛系统,您就无法孤立出一个因素。

如果将这些方法应用到人工智能助手或聊天机器人中,人工智能生成的答案可能会越来越依赖于提供完整、结构良好的信息的网页,因为这些网页更有可能包含足够的上下文来回答查询。关键是在单一来源中提供足够的信息,这样答案就有意义了,而不需要额外的研究。

什么是上下文不足的页面?

缺乏足够的细节来回答问题
误导
不完整
矛盾
信息不完整
内容需要预先了解
使答案完整所需的信息分散在不同的部分,而不是在统一的答案中呈现。

Google 的第三方质量评估指南 (QRG) 包含与上下文充分性类似的概念。例如,QRG 将低质量网页定义为那些未能提供必要背景、详细信息或与主题相关的信息的网页,因此无法很好地实现其目的。