MAGI-1: Масштабируемая Авторегрессивная Генерация Видео
Высокая Производительность·Легковесность·Полностью Открытый Исходный КодАрхитектура MoE для Мультимодальной Генерации и Понимания
Что такое MAGI-1 AI?
MAGI-1 - это передовая авторегрессивная модель генерации видео, разработанная SandAI, предназначенная для создания высококачественных видео путем предсказания последовательностей видеофрагментов авторегрессивным способом. Эта модель обучена шумоподавлению видеофрагментов, обеспечивая причинно-следственное временное моделирование и поддерживая потоковую генерацию. MAGI-1 превосходно справляется с задачами преобразования изображения в видео (I2V), обеспечивая высокую временную согласованность и масштабируемость благодаря нескольким алгоритмическим инновациям и специализированному инфраструктурному стеку.
Обзор MAGI-1
Характеристика | Описание |
---|---|
ИИ-инструмент | MAGI-1 |
Категория | Авторегрессивная Модель Генерации Видео |
Функция | Генерация Видео |
Скорость Генерации | Высокоэффективная Генерация Видео |
Научная Статья | Научная Статья |
Официальный Сайт | GitHub - SandAI-org/MAGI-1 |
MAGI-1 AI: Особенности Модели
VAE на Основе Transformer
Использует вариационный автоэнкодер с архитектурой на основе трансформера, обеспечивая 8-кратное пространственное и 4-кратное временное сжатие. Это приводит к быстрому декодированию и конкурентоспособному качеству реконструкции.
Авторегрессивный Алгоритм Шумоподавления
Генерирует видео фрагмент за фрагментом, позволяя параллельно обрабатывать до четырех фрагментов для эффективной генерации видео. Каждый фрагмент (24 кадра) очищается от шума целостно, и следующий фрагмент начинается, как только текущий достигает определенного уровня шумоподавления.

Архитектура Диффузионной Модели
Построена на основе Диффузионного Трансформера, включая такие инновации, как Block-Causal Attention, Parallel Attention Block, QK-Norm и GQA. Включает Sandwich Normalization в FFN, SwiGLU и Softcap Modulation для повышения эффективности обучения и стабильности в масштабе.

Алгоритм Дистилляции
Использует сокращенную дистилляцию для обучения единой модели на основе скорости, поддерживающей различные бюджеты вывода. Этот подход обеспечивает эффективный вывод с минимальной потерей точности.
MAGI-1: Зоопарк Моделей
Мы предоставляем предварительно обученные веса для MAGI-1, включая модели 24B и 4.5B, а также соответствующие модели с дистилляцией и дистилляцией+квантованием. Ссылки на веса моделей показаны в таблице.
Модель | Ссылка | Рекомендуемая Машина |
---|---|---|
T5 | T5 | - |
MAGI-1-VAE | MAGI-1-VAE | - |
MAGI-1-24B | MAGI-1-24B | H100/H800 * 8 |
MAGI-1-24B-distill | MAGI-1-24B-distill | H100/H800 * 8 |
MAGI-1-24B-distill+fp8_quant | MAGI-1-24B-distill+fp8_quant | H100/H800 * 4 или RTX 4090 * 8 |
MAGI-1-4.5B | MAGI-1-4.5B | RTX 4090 * 1 |
MAGI-1: Результаты Оценки
Оценка Человеком
MAGI-1 превосходит другие модели с открытым исходным кодом, такие как Wan-2.1, , Hailuo и HunyuanVideo с точки зрения следования инструкциям и качества движения, становясь сильным конкурентом для коммерческих моделей с закрытым исходным кодом.

Физическая Оценка
MAGI-1 демонстрирует превосходную точность в предсказании физического поведения через продолжение видео, значительно превосходя существующие модели.
Model | Phys. IQ Score ↑ | Spatial IoU ↑ | Spatio Temporal ↑ | Weighted Spatial IoU ↑ | MSE ↓ |
---|---|---|---|---|---|
V2V Models | |||||
Magi (V2V) | 56.02 | 0.367 | 0.270 | 0.304 | 0.005 |
VideoPoet (V2V) | 29.50 | 0.204 | 0.164 | 0.137 | 0.010 |
I2V Models | |||||
Magi (I2V) | 30.23 | 0.203 | 0.151 | 0.154 | 0.012 |
Kling1.6 (I2V) | 23.64 | 0.197 | 0.086 | 0.144 | 0.025 |
VideoPoet (I2V) | 20.30 | 0.141 | 0.126 | 0.087 | 0.012 |
Gen 3 (I2V) | 22.80 | 0.201 | 0.115 | 0.116 | 0.015 |
Wan2.1 (I2V) | 20.89 | 0.153 | 0.100 | 0.112 | 0.023 |
Sora (I2V) | 10.00 | 0.138 | 0.047 | 0.063 | 0.030 |
GroundTruth | 100.0 | 0.678 | 0.535 | 0.577 | 0.002 |
Почему Стоит Выбрать MAGI-1
Испытайте следующее поколение создания видео с помощью ИИ с MAGI-1, где передовые технологии сочетаются с прозрачностью открытого исходного кода.
Бесшовная Генерация Видео
Возьмите под контроль свой контент с точной покадровой настройкой времени, гарантируя, что ваши видео соответствуют точным творческим спецификациям.
Точный Контроль Временной Шкалы
Создавайте видео с четкими, детальными визуальными эффектами и плавным движением, обеспечивая профессиональный и захватывающий опыт.
Улучшенное Качество Движения
Испытайте реалистичное движение с нашей передовой обработкой движения, устраняя роботизированные переходы для действительно естественно выглядящих видео.
Инновации с Открытым Исходным Кодом
Присоединяйтесь к прозрачной экосистеме, где все модели и исследования доступны бесплатно, способствуя совместному улучшению и инновациям.
Часто Задаваемые Вопросы о MAGI-1
Что такое MAGI-1?
MAGI-1 AI - это передовая авторегрессивная модель генерации видео, разработанная SandAI, предназначенная для создания высококачественных видео путем предсказания последовательностей видеофрагментов авторегрессивным способом. Эта модель обучена шумоподавлению видеофрагментов, обеспечивая причинно-следственное временное моделирование и поддерживая потоковую генерацию.
Каковы ключевые особенности MAGI-1?
Особенности модели генерации видео MAGI-1 AI включают VAE на основе Transformer для быстрого декодирования и конкурентоспособного качества реконструкции, авторегрессивный алгоритм шумоподавления для эффективной генерации видео и архитектуру диффузионной модели, которая повышает эффективность обучения и стабильность в масштабе. Она также поддерживает управляемую генерацию через пофрагментные подсказки, обеспечивая плавные переходы между сценами, долгосрочный синтез и детальное текстовое управление.
Как MAGI-1 обрабатывает генерацию видео?
MAGI-1 AI генерирует видео фрагмент за фрагментом, а не как единое целое. Каждый фрагмент (24 кадра) очищается от шума целостно, и генерация следующего фрагмента начинается, как только текущий достигает определенного уровня шумоподавления. Такая конструкция конвейера позволяет параллельно обрабатывать до четырех фрагментов для эффективной генерации видео.
Какие варианты модели доступны для MAGI-1?
Варианты модели для видео MAGI-1 включают модель 24B, оптимизированную для генерации видео высокой точности, и модель 4.5B, подходящую для сред с ограниченными ресурсами. Также доступны дистиллированные и квантованные модели для более быстрого вывода.
Как MAGI-1 показывает себя в оценках?
MAGI-1 AI достигает передовых результатов среди моделей с открытым исходным кодом, отлично справляясь с следованием инструкциям и качеством движения, позиционируя себя как сильного потенциального конкурента для коммерческих моделей с закрытым исходным кодом, таких как Kling1.6. Она также демонстрирует превосходную точность в предсказании физического поведения через продолжение видео, значительно превосходя все существующие модели.
Как я могу запустить MAGI-1?
MAGI-1 AI можно запустить с помощью Docker или непосредственно из исходного кода. Docker рекомендуется для простоты настройки. Пользователи могут контролировать ввод и вывод, изменяя параметры в предоставленных скриптах run.sh.
Какая лицензия у MAGI-1?
MAGI-1 выпущен под лицензией Apache License 2.0.
Что такое функция 'Бесконечного Расширения Видео' MAGI-1?
Функция 'Бесконечного Расширения Видео' MAGI-1 позволяет бесшовно расширять видеоконтент, в сочетании с 'посекундным контролем временной оси', позволяя пользователям достигать переходов между сценами и точного редактирования через пофрагментные подсказки, удовлетворяя потребности кинопроизводства и повествования.
В чем значимость авторегрессивной архитектуры MAGI-1?
Благодаря естественным преимуществам авторегрессивной архитектуры, MAGI-1 достигает значительно превосходящей точности в предсказании физического поведения через продолжение видео—существенно превосходя все существующие модели.
Каковы области применения MAGI-1?
MAGI-1 разработан для различных применений, таких как создание контента, разработка игр, постпродакшн фильмов и образование. Он предлагает мощный инструмент для генерации видео, который может использоваться в множестве сценариев.