Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Исследование доктора Ю Суна: Продвижение ИИ с помощью гиперболических вычислений
Доктор Ю Сун вместе с исследователями из Стэнфорда, UC Berkeley, UCSD и UT Austin продвигает границы генеративного ИИ, используя инфраструктуру GPU компании Hyperbolic Labs.
Два прорывных проекта: генерация видео длительностью в минуту и адаптивные RNN. 🧵

Генерация видео длительностью в минуту 🎥
Большинство видеомоделей, таких как Sora и Veo, ограничены ~20 секундами. Команда Суна представила слои обучения во время тестирования (TTT) — адаптивные нейронные состояния, которые развиваются во время вывода, что делает возможным создание видео длительностью в 1 минуту из одного запроса без постобработки.
Инфраструктура и результаты
> 256× NVIDIA H100 через @hyperbolic_ai
> Модель: 5B param CogVideo-X
> Длина контекста: 300 000 токенов
> Время работы: 50 GPU-часов
> Датасет: 7 часов раскадровки мультфильмов
> +34 Эло против Мамбы 2 базовая линия
> Бумага 📄
RNN с выразительными скрытыми состояниями 🔁
Стандартные RNN теряют эффективность при превышении 16k токенов. Команда доктора Суна разработала TTT-Linear и TTT-MLP — скрытые состояния, которые являются обучаемыми нейронными сетями. Они адаптируются во время вывода, используя градиентное самообучение.
Результаты
> Длина контекста: 32 000 токенов
> Масштаб модели: от 125 млн до 1,3 млрд параметров
> Ускорение времени выполнения: 5× за счет оптимизации двух форм
> Линейное время, постоянная память
> Превосходит или не уступает Transformer, Mamba, DeltaNet
Код >:
Гиперболическая Инфра = Инструмент для исследований
Стабильные высокопроизводительные кластеры H100 от Hyperbolic поддерживали обработку 300k-токенов, постоянные среды для оптимизации внутреннего цикла и масштабируемые ресурсы для экспериментов, соответствующих FLOP.
"Графические процессоры H100 и услуги компании Hyperbolic обеспечили надежность, которая позволила нам прототипировать наше исследование в обучении на тестовых данных. Их инфраструктура упростила масштабирование наших моделей для генерации одноминутных видео из текстовых раскадровок. Мы смогли сосредоточиться на исследовании, а не на решении инфраструктурных проблем." — Др. Юй Сун

Будущее генеративного ИИ и моделирования последовательностей уже здесь. С помощью слоев TTT и масштабируемых вычислений открываются новые горизонты.
Арендуйте GPU по запросу сейчас на
Посмотрите полный блог:
7,77K
Топ
Рейтинг
Избранное