熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Artificial Analysis
獨立分析 AI 模型和託管供應商 - 為您的用例選擇最佳模型和 API 供應商
阿里巴巴發佈了 Qwen3 Next 80B:一個開放權重的混合推理模型,僅用 30 億活躍參數就達到了 DeepSeek V3.1 級別的智能
關鍵要點:
💡 新穎架構:首個引入 @Alibaba_Qwen 的 ‘Qwen3-Next’ 基礎模型的模型,具有幾個關鍵架構決策,如 Gated DeltaNet 和 Gated Attention 的混合注意機制,以及 3.8% 的活躍參數份額的高稀疏性,相比之下,Qwen3 235B 為 9.4%
🧠 智能:Qwen3 Next 80B(推理)在人工分析智能指數上得分 54,與 DeepSeek V3.1(推理)並列。非推理變體得分 45,與 gpt-oss-20B 和 Llama Nemotron Super 49B v1.5(推理)一致
💲 定價模型:在 @alibaba_cloud 上的每個 token 定價為推理每百萬輸入/輸出 token 0.5 美元/6 美元,非推理變體為 0.5 美元/2 美元。這與 Qwen3 235B 2507 的更高價格 0.7 美元/8.4 美元(推理)和 0.7 美元/2.8 美元(非推理)相比,減少了 ≥25%,具體取決於工作負載
⚙️ 模型細節:該模型具有 256k token 的原生上下文窗口,僅支持文本,且沒有多模態輸入或輸出。在僅 80B 參數的 FP8 下,該模型適合單個 H200 GPU

89
DeepSeek推出V3.1,將V3和R1統一為一個混合推理模型,智能水平逐步提升
智能水平逐步提升:DeepSeek V3.1的初步基準測試結果顯示,推理模式下的人工分析智能指數為60,較R1的59有所上升。在非推理模式下,V3.1的得分為49,較早期的V3 0324得分44有了更大的提升。這使得V3.1(推理)落後於阿里巴巴最新的Qwen3 235B 2507(推理)——DeepSeek尚未重新奪回領先地位。
混合推理:@deepseek_ai首次採用混合推理模型,支持推理和非推理模式。DeepSeek轉向統一的混合推理模型模仿了OpenAI、Anthropic和Google的做法。然而,值得注意的是,阿里巴巴最近放棄了他們之前偏好的混合方法,分別發布了Qwen3 2507推理和指令模型。
功能調用/工具使用:雖然DeepSeek聲稱模型的功能調用有所改善,但DeepSeek V3.1在推理模式下不支持功能調用。這可能會大大限制其支持具有智能要求的代理工作流程的能力,包括在編碼代理中的應用。
令牌使用:DeepSeek V3.1在推理模式下的得分比DeepSeek R1略高,並且在我們用於人工分析智能指數的評估中使用的令牌略少。在非推理模式下,它使用的令牌比V3 0324略多——但仍然是其推理模式使用的令牌的幾倍。
API:DeepSeek的第一方API現在在他們的聊天和推理端點上服務於新的DeepSeek V3.1模型——只需在聊天模板中更改是否提供結束思考</think>令牌,以控制模型是否進行推理。
架構:DeepSeek V3.1在架構上與之前的V3和R1模型完全相同,具有671B的總參數和37B的活躍參數。
影響:我們建議在對這一發布所暗示的DeepSeek在未來模型(傳聞稱為V4或R2)進展方面做出任何假設時保持謹慎。我們注意到,DeepSeek之前在2024年12月10日發布了基於其V2架構的最終模型,僅在發布V3的兩週前。


437
熱門
排行
收藏