热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
好的,我做了一些研究,经过我阅读的一切,这里是我的收获:
4o 原生图像生成首先输出一个巨大的潜在补丁令牌网格,然后将其交给一个扩散解码器,该解码器在每个频段上进行大约 25 次去噪步骤,然后显示结果像素。之后,它运行一个补丁合并,嵌入 c2pa 来源元数据,并运行一个重的多模态安全过滤器,每个过滤器增加几百毫秒的延迟。此外,由于 4o 原生图像生成实际上是同一个 4o 实例(而不是单独的工具调用),它在 VRAM 中保持整个聊天上下文,同时处理数万个图像令牌,因此 GPU 正在进行大量的多任务处理。
与此同时,Grok: Aurora 是一个旨在提高原始令牌/秒吞吐量的 MoE(声称约 1.2k t/s),并完全跳过扩散。它以自回归的方式在单次传递中发出离散图像令牌,通过轻量级 VQ 解码器转换为 1024x768 的 jpeg,添加水印,进行快速政策扫描,然后发送图像。没有上采样器,没有多频段扩散,没有聊天上下文,每个请求只有一帧,因此感觉几乎是瞬时的。
权衡在于,4o 消耗额外的 FLOPs 来处理小文本、布局保真度和多轮编辑一致性(据说),而 Grok 则针对速度进行了调优,以便更快地获取 jpeg。
是的,我使用了LLMs进行研究,但不,我没有使用它来写这个。
哇,重新阅读这个,我发现有这么多错别字,我真该感到羞愧。
附录:我被[已编辑]纠正,对于4o,这几乎肯定是一个1d序列,而不是传统的网格vae。
6.83K
热门
排行
收藏