跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
DEX API
探索 DEX API
DEX API 文档
API Key 管理
区块链浏览器
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
学院
帮助中心
探索 Web3 Giveaway 活动,每周丰厚奖励等您来领取
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-2.87%
USELESS
-1.64%
IKUN
-7.87%
gib
-6.18%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
+0.64%
ALON
-1.5%
LAUNCHCOIN
+2.43%
GOONC
-3.92%
KLED
-1.15%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.4%
Boopa
-12.65%
PORK
-3.43%
主页
Derya Unutmaz, MD
教授、生物医学科学家、人类免疫学家、衰老和癌症免疫疗法。全力以赴。兴趣:生物人工智能、机器人技术、太空科幻象棋。个人观点
查看原文
Derya Unutmaz, MD
9月15日 02:31
目前,“水管工智能”比博士级智能更有价值,因为AI模型在认知层面上已经超越了后者,但在身体智能方面仍然远远落后。然而,这种悖论不会持续太久;这只是下一个需要征服的前沿。
103
Derya Unutmaz, MD
9月14日 03:12
这是一篇非常有趣且我认为很重要的论文。长时间思考在我看来是一个至关重要的特征。想象一下,一个能够思考一百万步的AI模型! ✅GPT-5的思维远远领先于我们测试的所有其他模型。它可以一次性执行1000多个步骤的任务。 ✅第二名是Claude 4 Sonnet,432步……然后是Grok-4,384步。 ✅Gemini 2.5 Pro和DeepSeek R1则远远落后,仅有120步。
Shashwat Goel
9月12日 23:42
新鲜出炉的论文:收益递减的幻觉:在LLM中测量长时间执行。 小模型是代理AI的未来吗?由于收益递减,扩展LLM计算是否不值得成本?自回归LLM注定要失败,思考是一种幻觉吗? LLM扩展的熊市案例都与一个单一能力相关:长时间执行。然而,这正是你应该看好扩展模型规模和测试时计算的原因! > 首先,记得METR图吗?它可能可以通过@ylecun的复合错误模型来解释 > 模型的视野长度在单步准确性上以超指数方式增长(@DaveShapi)。 > 结论1:不要被典型短任务基准上进展缓慢所迷惑 > 这足以实现视野长度的指数增长。 但我们超越了@ylecun的模型,进行了实证测试LLM... > 仅仅执行对LLM来说也是困难的,即使你提供了所需的计划和知识。 > 我们不应该误解执行失败为“推理”的无能。 > 即使小模型的单步准确率为100%,较大的模型在成功率阈值以上可以执行更多的回合。 > 注意到当任务变长时你的代理表现更差吗?这不仅仅是长上下文的限制…… > 我们观察到:自我条件效应! > 当模型看到它们在历史上犯的错误时,它们在未来的回合中更可能犯错误。 > 增加模型规模使这个问题更糟 - 这是逆向扩展的罕见案例! 那么思考呢……? > 思考不是幻觉。它是执行的引擎! > 即使DeepSeek v3、Kimi K2在没有CoT的情况下被要求执行5个回合时也无法执行…… > 有了CoT,它们可以多做10倍。 那么前沿呢? > GPT-5的思考远远领先于我们测试的所有其他模型。它可以一次性执行1000+步的任务。 > 第二名是Claude 4 Sonnet,432步……然后是Grok-4,384步。 > Gemini 2.5 Pro和DeepSeek R1远远落后,仅有120步。 > 这就是为什么GPT-5被命名为Horizon吗?🤔 > 开源还有很长的路要走!;) > 让我们一起成长!我们发布所有代码和数据。 我们进行了长时间的深入研究,并为您呈现最佳要点和精彩图表 👇
86
Derya Unutmaz, MD
9月12日 10:22
GPT-5 Pro 又一次令人震惊的壮举:仅凭一张照片就诊断出一个儿童罕见的遗传性皮肤病! 这是我一位医生朋友的病人,确立该病例的真实诊断花费了数月时间,并需要详细的病理分析!
249
热门
排行
收藏