這是一篇非常有趣且我認為很重要的論文。長時間思考在我看來是一個至關重要的特徵。想象一下,一個能夠思考一百萬步的AI模型! ✅GPT-5的思維遠遠領先於我們測試的所有其他模型。它可以一次性執行1000多個步驟的任務。 ✅第二名是Claude 4 Sonnet,432步……然後是Grok-4,384步。 ✅Gemini 2.5 Pro和DeepSeek R1則遠遠落後,僅有120步。