一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

好的，我做了一些研究，经过我阅读的一切，这里是我的收获： 4o 原生图像生成首先输出一个巨大的潜在补丁令牌网格，然后将其交给一个扩散解码器，该解码器在每个频段上进行大约 25 次去噪步骤，然后显示结果像素。之后，它运行一个补丁合并，嵌入 c2pa 来源元数据，并运行一个重的多模态安全过滤器，每个过滤器增加几百毫秒的延迟。此外，由于 4o 原生图像生成实际上是同一个 4o 实例（而不是单独的工具调用），它在 VRAM 中保持整个聊天上下文，同时处理数万个图像令牌，因此 GPU 正在进行大量的多任务处理。与此同时，Grok: Aurora 是一个旨在提高原始令牌/秒吞吐量的 MoE（声称约 1.2k t/s），并完全跳过扩散。它以自回归的方式在单次传递中发出离散图像令牌，通过轻量级 VQ 解码器转换为 1024x768 的 jpeg，添加水印，进行快速政策扫描，然后发送图像。没有上采样器，没有多频段扩散，没有聊天上下文，每个请求只有一帧，因此感觉几乎是瞬时的。权衡在于，4o 消耗额外的 FLOPs 来处理小文本、布局保真度和多轮编辑一致性（据说），而 Grok 则针对速度进行了调优，以便更快地获取 jpeg。

是的，我使用了LLMs进行研究，但不，我没有使用它来写这个。

哇，重新阅读这个，我发现有这么多错别字，我真该感到羞愧。

附录：我被[已编辑]纠正，对于4o，这几乎肯定是一个1d序列，而不是传统的网格vae。

6.83K