好的,我做了一些研究,经过我阅读的一切,这里是我的收获: 4o 原生图像生成首先输出一个巨大的潜在补丁令牌网格,然后将其交给一个扩散解码器,该解码器在每个频段上进行大约 25 次去噪步骤,然后显示结果像素。之后,它运行一个补丁合并,嵌入 c2pa 来源元数据,并运行一个重的多模态安全过滤器,每个过滤器增加几百毫秒的延迟。此外,由于 4o 原生图像生成实际上是同一个 4o 实例(而不是单独的工具调用),它在 VRAM 中保持整个聊天上下文,同时处理数万个图像令牌,因此 GPU 正在进行大量的多任务处理。 与此同时,Grok: Aurora 是一个旨在提高原始令牌/秒吞吐量的 MoE(声称约 1.2k t/s),并完全跳过扩散。它以自回归的方式在单次传递中发出离散图像令牌,通过轻量级 VQ 解码器转换为 1024x768 的 jpeg,添加水印,进行快速政策扫描,然后发送图像。没有上采样器,没有多频段扩散,没有聊天上下文,每个请求只有一帧,因此感觉几乎是瞬时的。 权衡在于,4o 消耗额外的 FLOPs 来处理小文本、布局保真度和多轮编辑一致性(据说),而 Grok 则针对速度进行了调优,以便更快地获取 jpeg。
Deva Hazarika
Deva Hazarika8月9日 00:59
我对AI图像生成了解不多,但我觉得有趣的是,GPT的方法需要花费很多时间来生成图像,而Grok的方法则是尽可能快速地输出一些东西。
是的,我使用了LLMs进行研究,但不,我没有使用它来写这个。
哇,重新阅读这个,我发现有这么多错别字,我真该感到羞愧。
附录:我被[已编辑]纠正,对于4o,这几乎肯定是一个1d序列,而不是传统的网格vae。
6.83K