熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
🚀 阿里巴巴的 Qwen 團隊推出了 Qwen-Image,一個擁有 20B 參數的 MMDiT 模型,徹底改變了文本到圖像的生成!原生像素內文本渲染,適合驚人的海報,支持雙語英語/中文,擅長於照片寫實/動漫/風格。深入了解我們的技術文章,獲取在 Hyperbolic 和 Gradio 上部署模型的完整指南。

架構:結合了 MLLM(用於語義的 Qwen2.5-VL 7B)、VAE(針對文本豐富的偵察進行了微調)和 20B MMDiT(帶 ODE 的流量匹配,用於可擴展的對角線連接)。
過程:提示→壯舉→去噪→解碼。TI2I 具有用於編輯的雙編碼。

創新:龐大的數據管道(數十億對:自然 55%,設計 27%,人員 13%,合成 5%;英/中分割)。課程學習以掌握文本。MSRoPE(基於 RoPE)用於 2D 對齊。多任務 T2I/TI2I/I2I。在 GenEval、文本基準上達到 SOTA!

Vs. GPT-Image-1:匹配照片真實感,壓倒雙語文本/多行,編輯一致性(物體/姿勢的保真度更好)。這是開源與API的邊界!

GPU 基礎設施:估計約 24GB VRAM(20B x 1.2 以 BF16 計算)。推理在單個 H100 上運行順暢。
我們在 Hyperbolic 的按需雲 H100 上進行測試,費用為每小時 $1.49,使用從官方模型卡適配的簡單 Python 腳本來實現互動式 Gradio UI。

閱讀我們的完整文章:架構細節、創新、比較、計算分析、完整的代碼和在 Gradio 上的部署步驟。自己運行 Qwen-Image,並與我們分享您的圖像創作!
閱讀完整的部落格:
現在在 Hyperbolic 租用 H100,每小時 $1.49:
閱讀我們的完整文章:架構細節、創新、比較、計算分析、完整的代碼和在 Gradio 上的部署步驟。自己運行 Qwen-Image,並與我們分享你的圖像創作!
閱讀完整的部落格:
現在在 Hyperbolic 上以每小時 $1.49 租用 H100s:
8.41K
熱門
排行
收藏