Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Хорошо, я провел небольшое исследование, и после всего, что я прочитал, вот мой вывод:
4o native image gen сначала выдает гигантскую сетку латентных патч-токенов, затем передает это декодеру диффузии, который выполняет около 25 шагов денойзинга на каждую полосу перед тем, как показать полученные пиксели. После этого он выполняет слияние патчей, встраивает метаданные происхождения c2pa и запускает тяжелые многомодальные фильтры безопасности, каждый из которых добавляет по несколько сотен миллисекунд. Также, поскольку 4o native image gen на самом деле является тем же самым экземпляром 4o (это не отдельный вызов инструмента), он сохраняет весь контекст чата в VRAM, одновременно обрабатывая десятки тысяч токенов изображений, так что GPU выполняет ОЧЕНЬ много задач одновременно.
Тем временем Grok: Aurora — это MoE, нацеленный на пропускную способность токенов в секунду (~1,2k т/с заявлено) и полностью пропускает диффузию. Он автогрегативно выдает дискретные токены изображений за один проход, пропускает их через легкий VQ декодер к 1024x768 jpeg, добавляет водяной знак, проводит быструю проверку политики и отправляет изображение. Нет увеличителя, многополосной диффузии, нет контекста чата и один кадр на запрос, так что это ощущается почти мгновенно.
Компромисс в том, что 4o тратит дополнительные FLOPs на обработку небольшого текста, точности компоновки и согласованности редактирования в нескольких поворотах (по слухам), в то время как Grok настроен на скорость, чтобы получить jpeg быстрее.

9 авг. 2025 г.
Я не знаю много о генерации изображений с помощью ИИ, но мне интересно, как подход GPT требует много времени для создания изображения по сравнению с подходом Grok, который просто выдает что-то как можно быстрее.


Да, я использовал LLM для исследований, но НЕТ, я не использовал его, чтобы написать это.
вау, перечитывая это, я вижу так много опечаток, мне должно быть стыдно
дополнение: Меня поправил [redacted], что для 4o это почти наверняка последовательность 1d, а не традиционный сеточный VAE.
327
Топ
Рейтинг
Избранное