China Dataset

Posted: **Thu Mar 20, 2025 5:52 am**

法学硕士生倾向于重复他们的训练材料，这是《纽约时报》起诉 OpenAI 的依据，但它也是大量人工智能错误和幻觉的罪魁祸首。长期以来，如果你问法学硕士生，“一吨羽毛和一吨羽毛哪个更重？”他会自信地回答，一吨羽毛和一吨砖头的重量是一样的。

ChatGPT 响应不正确
为了解决这个问题，我们使用了一种名为“思维链(CoT) 推理”的快速工程技术。该技术的想法是，通过告诉人工智能“一步一步思考”或提示它回答如何生成答案，它不会只用最明显的答案来回答；相反，它会充分考虑指令。令人震惊的是，它实际上非常有效。

告诉人工智能“一步一步解释你的推理”，它就会得到正确的答案。
推理模型也做着同样的事情——它们的工作原理是采用基础模型，并用强化学习对其进行训练，以便用 CoT 推理来应对一切。当你问问题时，它会在思考时说“推理……”之类的话。然后，一旦它回答，它就会告诉你它思考了多长时间并给你答案。

它仍在进行 CoT 推理，但隐藏了用户的思维链。在下图中，您可以看到聊天机器人告诉我它“推理”了 1 分 15 秒，但它将推理的细节保留在可折叠部分后面。

ChatGPT 表示它推理了 1 分 15 秒，但隐藏了推理过程
当你打开折叠页时，它会列出正在采取的步骤 - 它只是总结了 CoT。

展开推理，看看 ChatGPT 如何推理这个问题
当然，当你要求人工智能解决难题或生成一些代码时，你不希望在它阿曼电报数据库思考提示时阅读数百个多余的单词。相反，推理模型会隐藏思维过程的链条，并在最后为你提供方便的摘要。

DeepSeek 的长篇大论回答，最后有总结
这也凸显了推理模型的另一个特点。它们形成的思维链越长，就越有可能得出正确答案。当然，生成更长的思维链需要更多的计算资源，因此需要花费更多的钱，所以总是有权衡的。这就是为什么 o3-mini 有低、中、高三种推理难度等级。

在需要逻辑推理、数学、科学和编码的任务方面，推理模型比普通的 LLM 好得多。它们逐步处理事物的能力也使它们更适合自主功能，例如ChatGPT 的深度研究。

在下图中，你可以看到人工智能分析中表现最高的五个模型都是推理模型。

人工智能模型排名图表
但推理模型比常规模型慢得多。它们需要时间来完成一系列的思维。ChatGPT 上的典型推理查询可能需要两三分钟。

China Dataset

推理模型与常规 LLM 有何不同？

推理模型与常规 LLM 有何不同？