推理模型与常规 LLM 有何不同?
Posted: Thu Mar 20, 2025 5:52 am
法学硕士生倾向于重复他们的训练材料,这是《纽约时报》起诉 OpenAI 的依据,但它也是大量人工智能错误和幻觉的罪魁祸首。长期以来,如果你问法学硕士生,“一吨羽毛和一吨羽毛哪个更重?”他会自信地回答,一吨羽毛和一吨砖头的重量是一样的。
ChatGPT 响应不正确
为了解决这个问题,我们使用了一种名为“思维链(CoT) 推理”的快速工程技术。该技术的想法是,通过告诉人工智能“一步一步思考”或提示它回答如何生成答案,它不会只用最明显的答案来回答;相反,它会充分考虑指令。令人震惊的是,它实际上非常有效。
告诉人工智能“一步一步解释你的推理”,它就会得到正确的答案。
推理模型也做着同样的事情——它们的工作原理是采用基础模型,并用强化学习对其进行训练,以便用 CoT 推理来应对一切。当你问问题时,它会在思考时说“推理……”之类的话。然后,一旦它回答,它就会告诉你它思考了多长时间并给你答案。
它仍在进行 CoT 推理,但隐藏了用户的思维链。在下图中,您可以看到聊天机器人告诉我它“推理”了 1 分 15 秒,但它将推理的细节保留在可折叠部分后面。
ChatGPT 表示它推理了 1 分 15 秒,但隐藏了推理过程
当你打开折叠页时,它会列出正在采取的步骤 - 它只是总结了 CoT。
展开推理,看看 ChatGPT 如何推理这个问题
当然,当你要求人工智能解决难题或生成一些代码时,你不希望在它 阿曼电报数据库 思考提示时阅读数百个多余的单词。相反,推理模型会隐藏思维过程的链条,并在最后为你提供方便的摘要。
DeepSeek 的长篇大论回答,最后有总结
这也凸显了推理模型的另一个特点。它们形成的思维链越长,就越有可能得出正确答案。当然,生成更长的思维链需要更多的计算资源,因此需要花费更多的钱,所以总是有权衡的。这就是为什么 o3-mini 有低、中、高三种推理难度等级。
在需要逻辑推理、数学、科学和编码的任务方面,推理模型比普通的 LLM 好得多。它们逐步处理事物的能力也使它们更适合自主功能,例如ChatGPT 的深度研究。
在下图中,你可以看到人工智能分析中表现最高的五个模型都是推理模型。
人工智能模型排名图表
但推理模型比常规模型慢得多。它们需要时间来完成一系列的思维。ChatGPT 上的典型推理查询可能需要两三分钟。
ChatGPT 响应不正确
为了解决这个问题,我们使用了一种名为“思维链(CoT) 推理”的快速工程技术。该技术的想法是,通过告诉人工智能“一步一步思考”或提示它回答如何生成答案,它不会只用最明显的答案来回答;相反,它会充分考虑指令。令人震惊的是,它实际上非常有效。
告诉人工智能“一步一步解释你的推理”,它就会得到正确的答案。
推理模型也做着同样的事情——它们的工作原理是采用基础模型,并用强化学习对其进行训练,以便用 CoT 推理来应对一切。当你问问题时,它会在思考时说“推理……”之类的话。然后,一旦它回答,它就会告诉你它思考了多长时间并给你答案。
它仍在进行 CoT 推理,但隐藏了用户的思维链。在下图中,您可以看到聊天机器人告诉我它“推理”了 1 分 15 秒,但它将推理的细节保留在可折叠部分后面。
ChatGPT 表示它推理了 1 分 15 秒,但隐藏了推理过程
当你打开折叠页时,它会列出正在采取的步骤 - 它只是总结了 CoT。
展开推理,看看 ChatGPT 如何推理这个问题
当然,当你要求人工智能解决难题或生成一些代码时,你不希望在它 阿曼电报数据库 思考提示时阅读数百个多余的单词。相反,推理模型会隐藏思维过程的链条,并在最后为你提供方便的摘要。
DeepSeek 的长篇大论回答,最后有总结
这也凸显了推理模型的另一个特点。它们形成的思维链越长,就越有可能得出正确答案。当然,生成更长的思维链需要更多的计算资源,因此需要花费更多的钱,所以总是有权衡的。这就是为什么 o3-mini 有低、中、高三种推理难度等级。
在需要逻辑推理、数学、科学和编码的任务方面,推理模型比普通的 LLM 好得多。它们逐步处理事物的能力也使它们更适合自主功能,例如ChatGPT 的深度研究。
在下图中,你可以看到人工智能分析中表现最高的五个模型都是推理模型。
人工智能模型排名图表
但推理模型比常规模型慢得多。它们需要时间来完成一系列的思维。ChatGPT 上的典型推理查询可能需要两三分钟。