Новинка

100% Открытый Исходный Код · Уже Доступно

MAGI-1: Масштабируемая Авторегрессивная Генерация Видео

Высокая Производительность·Легковесность·Полностью Открытый Исходный КодАрхитектура MoE для Мультимодальной Генерации и Понимания

Начать Бесплатно

Научная Статья

Что такое MAGI-1 AI?

MAGI-1 - это передовая авторегрессивная модель генерации видео, разработанная SandAI, предназначенная для создания высококачественных видео путем предсказания последовательностей видеофрагментов авторегрессивным способом. Эта модель обучена шумоподавлению видеофрагментов, обеспечивая причинно-следственное временное моделирование и поддерживая потоковую генерацию. MAGI-1 превосходно справляется с задачами преобразования изображения в видео (I2V), обеспечивая высокую временную согласованность и масштабируемость благодаря нескольким алгоритмическим инновациям и специализированному инфраструктурному стеку.

Обзор MAGI-1

Характеристика	Описание
ИИ-инструмент	MAGI-1
Категория	Авторегрессивная Модель Генерации Видео
Функция	Генерация Видео
Скорость Генерации	Высокоэффективная Генерация Видео
Научная Статья	Научная Статья
Официальный Сайт	GitHub - SandAI-org/MAGI-1

MAGI-1 AI: Особенности Модели

VAE на Основе Transformer

Использует вариационный автоэнкодер с архитектурой на основе трансформера, обеспечивая 8-кратное пространственное и 4-кратное временное сжатие. Это приводит к быстрому декодированию и конкурентоспособному качеству реконструкции.

Авторегрессивный Алгоритм Шумоподавления

Генерирует видео фрагмент за фрагментом, позволяя параллельно обрабатывать до четырех фрагментов для эффективной генерации видео. Каждый фрагмент (24 кадра) очищается от шума целостно, и следующий фрагмент начинается, как только текущий достигает определенного уровня шумоподавления.

Архитектура Диффузионной Модели

Построена на основе Диффузионного Трансформера, включая такие инновации, как Block-Causal Attention, Parallel Attention Block, QK-Norm и GQA. Включает Sandwich Normalization в FFN, SwiGLU и Softcap Modulation для повышения эффективности обучения и стабильности в масштабе.

Алгоритм Дистилляции

Использует сокращенную дистилляцию для обучения единой модели на основе скорости, поддерживающей различные бюджеты вывода. Этот подход обеспечивает эффективный вывод с минимальной потерей точности.

MAGI-1: Зоопарк Моделей

Мы предоставляем предварительно обученные веса для MAGI-1, включая модели 24B и 4.5B, а также соответствующие модели с дистилляцией и дистилляцией+квантованием. Ссылки на веса моделей показаны в таблице.

Модель	Ссылка	Рекомендуемая Машина
T5	T5	-
MAGI-1-VAE	MAGI-1-VAE	-
MAGI-1-24B	MAGI-1-24B	H100/H800 * 8
MAGI-1-24B-distill	MAGI-1-24B-distill	H100/H800 * 8
MAGI-1-24B-distill+fp8_quant	MAGI-1-24B-distill+fp8_quant	H100/H800 * 4 или RTX 4090 * 8
MAGI-1-4.5B	MAGI-1-4.5B	RTX 4090 * 1

MAGI-1: Результаты Оценки

Оценка Человеком

MAGI-1 превосходит другие модели с открытым исходным кодом, такие как Wan-2.1, , Hailuo и HunyuanVideo с точки зрения следования инструкциям и качества движения, становясь сильным конкурентом для коммерческих моделей с закрытым исходным кодом.

Физическая Оценка

MAGI-1 демонстрирует превосходную точность в предсказании физического поведения через продолжение видео, значительно превосходя существующие модели.

Model	Phys. IQ Score ↑	Spatial IoU ↑	Spatio Temporal ↑	Weighted Spatial IoU ↑	MSE ↓
V2V Models
Magi (V2V)	56.02	0.367	0.270	0.304	0.005
VideoPoet (V2V)	29.50	0.204	0.164	0.137	0.010
I2V Models
Magi (I2V)	30.23	0.203	0.151	0.154	0.012
Kling1.6 (I2V)	23.64	0.197	0.086	0.144	0.025
VideoPoet (I2V)	20.30	0.141	0.126	0.087	0.012
Gen 3 (I2V)	22.80	0.201	0.115	0.116	0.015
Wan2.1 (I2V)	20.89	0.153	0.100	0.112	0.023
Sora (I2V)	10.00	0.138	0.047	0.063	0.030
GroundTruth	100.0	0.678	0.535	0.577	0.002

Почему Стоит Выбрать MAGI-1

Испытайте следующее поколение создания видео с помощью ИИ с MAGI-1, где передовые технологии сочетаются с прозрачностью открытого исходного кода.

Бесшовная Генерация Видео

Возьмите под контроль свой контент с точной покадровой настройкой времени, гарантируя, что ваши видео соответствуют точным творческим спецификациям.

Точный Контроль Временной Шкалы

Создавайте видео с четкими, детальными визуальными эффектами и плавным движением, обеспечивая профессиональный и захватывающий опыт.

Улучшенное Качество Движения

Испытайте реалистичное движение с нашей передовой обработкой движения, устраняя роботизированные переходы для действительно естественно выглядящих видео.

Инновации с Открытым Исходным Кодом

Присоединяйтесь к прозрачной экосистеме, где все модели и исследования доступны бесплатно, способствуя совместному улучшению и инновациям.

Часто Задаваемые Вопросы о MAGI-1

Что такое MAGI-1?

MAGI-1 AI - это передовая авторегрессивная модель генерации видео, разработанная SandAI, предназначенная для создания высококачественных видео путем предсказания последовательностей видеофрагментов авторегрессивным способом. Эта модель обучена шумоподавлению видеофрагментов, обеспечивая причинно-следственное временное моделирование и поддерживая потоковую генерацию.

Каковы ключевые особенности MAGI-1?

Особенности модели генерации видео MAGI-1 AI включают VAE на основе Transformer для быстрого декодирования и конкурентоспособного качества реконструкции, авторегрессивный алгоритм шумоподавления для эффективной генерации видео и архитектуру диффузионной модели, которая повышает эффективность обучения и стабильность в масштабе. Она также поддерживает управляемую генерацию через пофрагментные подсказки, обеспечивая плавные переходы между сценами, долгосрочный синтез и детальное текстовое управление.

Как MAGI-1 обрабатывает генерацию видео?

MAGI-1 AI генерирует видео фрагмент за фрагментом, а не как единое целое. Каждый фрагмент (24 кадра) очищается от шума целостно, и генерация следующего фрагмента начинается, как только текущий достигает определенного уровня шумоподавления. Такая конструкция конвейера позволяет параллельно обрабатывать до четырех фрагментов для эффективной генерации видео.

Какие варианты модели доступны для MAGI-1?

Варианты модели для видео MAGI-1 включают модель 24B, оптимизированную для генерации видео высокой точности, и модель 4.5B, подходящую для сред с ограниченными ресурсами. Также доступны дистиллированные и квантованные модели для более быстрого вывода.

Как MAGI-1 показывает себя в оценках?

MAGI-1 AI достигает передовых результатов среди моделей с открытым исходным кодом, отлично справляясь с следованием инструкциям и качеством движения, позиционируя себя как сильного потенциального конкурента для коммерческих моделей с закрытым исходным кодом, таких как Kling1.6. Она также демонстрирует превосходную точность в предсказании физического поведения через продолжение видео, значительно превосходя все существующие модели.

Как я могу запустить MAGI-1?

MAGI-1 AI можно запустить с помощью Docker или непосредственно из исходного кода. Docker рекомендуется для простоты настройки. Пользователи могут контролировать ввод и вывод, изменяя параметры в предоставленных скриптах run.sh.

Какая лицензия у MAGI-1?

MAGI-1 выпущен под лицензией Apache License 2.0.

Что такое функция 'Бесконечного Расширения Видео' MAGI-1?

Функция 'Бесконечного Расширения Видео' MAGI-1 позволяет бесшовно расширять видеоконтент, в сочетании с 'посекундным контролем временной оси', позволяя пользователям достигать переходов между сценами и точного редактирования через пофрагментные подсказки, удовлетворяя потребности кинопроизводства и повествования.

В чем значимость авторегрессивной архитектуры MAGI-1?

Благодаря естественным преимуществам авторегрессивной архитектуры, MAGI-1 достигает значительно превосходящей точности в предсказании физического поведения через продолжение видео—существенно превосходя все существующие модели.

Каковы области применения MAGI-1?

MAGI-1 разработан для различных применений, таких как создание контента, разработка игр, постпродакшн фильмов и образование. Он предлагает мощный инструмент для генерации видео, который может использоваться в множестве сценариев.