热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
🚀 阿里巴巴的 Qwen 团队发布了 Qwen-Image,这是一款拥有 200 亿参数的 MMDiT 模型,彻底改变了文本到图像的生成!原生像素内文本渲染,适合制作惊艳的海报,支持双语 EN/CN,擅长于逼真的/动漫风格。深入阅读我们的技术文章,获取在 Hyperbolic 和 Gradio 上部署该模型的完整指南。

架构:结合了 MLLM(用于语义的 Qwen2.5-VL 7B)、VAE(针对文本丰富的侦察进行了微调)和 20B MMDiT(带 ODE 的流量匹配,用于可扩展分辨率的对角线连接)。
过程:提示→壮举→去噪→解码。TI2I 具有用于编辑的双编码。

创新:大规模数据管道(数十亿对:自然 55%,设计 27%,人 13%,合成 5%;英/中分割)。文本掌握的课程学习。MSRoPE(基于 RoPE)用于 2D 对齐。多任务 T2I/TI2I/I2I。在 GenEval、文本基准上达到 SOTA!

与 GPT-Image-1 相比:匹配照片真实感,压倒双语文本/多行,编辑一致性(在物体/姿势上具有更好的保真度)。这是开源与 API 的边界!

GPU基础设施:估计约24GB VRAM(20B x 1.2,采用BF16)。推理在单个H100上运行顺畅。
我们在Hyperbolic的按需云H100上进行了测试,费用为每小时1.49美元,使用了一个简单的python脚本,该脚本是根据官方模型卡适配的,用于交互式Gradio UI。

阅读我们的完整文章:架构细节、创新、比较、计算分析、完整代码和在 Gradio 上的部署步骤。自己运行 Qwen-Image,并与我们分享您的图像创作!
阅读完整博客:
现在在 Hyperbolic 租用 H100,每小时 $1.49:
阅读我们的完整文章:架构细节、创新、比较、计算分析、完整代码和在 Gradio 上的部署步骤。自己运行 Qwen-Image,并与我们分享您的图像创作!
阅读完整博客:
现在在 Hyperbolic 上以每小时 $1.49 租用 H100s:
8.41K
热门
排行
收藏