这是一篇非常有趣且我认为很重要的论文。长时间思考在我看来是一个至关重要的特征。想象一下,一个能够思考一百万步的AI模型! ✅GPT-5的思维远远领先于我们测试的所有其他模型。它可以一次性执行1000多个步骤的任务。 ✅第二名是Claude 4 Sonnet,432步……然后是Grok-4,384步。 ✅Gemini 2.5 Pro和DeepSeek R1则远远落后,仅有120步。