MAGI-1: Generación Autoregresiva de Video a Gran Escala
Alto Rendimiento·Ligero·Completamente Open-SourceArquitectura MoE para Generación y Comprensión Multimodal
¿Qué es MAGI-1 AI?
MAGI-1 es un modelo avanzado de generación autoregresiva de video desarrollado por SandAI, diseñado para generar videos de alta calidad mediante la predicción de secuencias de fragmentos de video de manera autoregresiva. Este modelo está entrenado para eliminar el ruido de los fragmentos de video, permitiendo el modelado temporal causal y admitiendo la generación en streaming. MAGI-1 sobresale en tareas de imagen a video (I2V), proporcionando alta consistencia temporal y escalabilidad, gracias a varias innovaciones algorítmicas y una infraestructura dedicada.
Descripción General de MAGI-1
Característica | Descripción |
---|---|
Herramienta de IA | MAGI-1 |
Categoría | Modelo Autoregresivo de Generación de Video |
Función | Generación de Video |
Velocidad de Generación | Generación de Video de Alta Eficiencia |
Documento de Investigación | Documento de Investigación |
Sitio Web Oficial | GitHub - SandAI-org/MAGI-1 |
MAGI-1 AI: Características del Modelo
VAE basado en Transformer
Utiliza un autocodificador variacional con arquitectura basada en Transformer, ofreciendo compresión espacial 8x y temporal 4x. Esto resulta en tiempos de decodificación rápidos y calidad de reconstrucción competitiva.
Algoritmo de Eliminación de Ruido Autoregresivo
Genera videos fragmento por fragmento, permitiendo el procesamiento concurrente de hasta cuatro fragmentos para una generación eficiente de video. Cada fragmento (24 fotogramas) se procesa holísticamente, y el siguiente fragmento comienza tan pronto como el actual alcanza cierto nivel de eliminación de ruido.

Arquitectura del Modelo de Difusión
Construido sobre el Diffusion Transformer, incorporando innovaciones como Block-Causal Attention, Parallel Attention Block, QK-Norm y GQA. Incluye Sandwich Normalization en FFN, SwiGLU y Softcap Modulation para mejorar la eficiencia del entrenamiento y la estabilidad a escala.

Algoritmo de Destilación
Utiliza destilación abreviada para entrenar un único modelo basado en velocidad que admite presupuestos de inferencia variables. Este enfoque garantiza una inferencia eficiente con pérdida mínima de fidelidad.
MAGI-1: Zoológico de Modelos
Proporcionamos los pesos pre-entrenados para MAGI-1, incluyendo los modelos 24B y 4.5B, así como los modelos correspondientes de destilación y destilación+cuantización. Los enlaces de los pesos del modelo se muestran en la tabla.
Modelo | Enlace | Máquina Recomendada |
---|---|---|
T5 | T5 | - |
MAGI-1-VAE | MAGI-1-VAE | - |
MAGI-1-24B | MAGI-1-24B | H100/H800 * 8 |
MAGI-1-24B-distill | MAGI-1-24B-distill | H100/H800 * 8 |
MAGI-1-24B-distill+fp8_quant | MAGI-1-24B-distill+fp8_quant | H100/H800 * 4 or RTX 4090 * 8 |
MAGI-1-4.5B | MAGI-1-4.5B | RTX 4090 * 1 |
MAGI-1: Resultados de Evaluación
Evaluación Humana
MAGI-1 supera a otros modelos de código abierto como Wan-2.1, , Hailuo y HunyuanVideo en términos de seguimiento de instrucciones y calidad de movimiento, convirtiéndolo en un fuerte competidor frente a modelos comerciales de código cerrado.

Evaluación Física
MAGI-1 demuestra precisión superior en la predicción del comportamiento físico a través de la continuación de video, superando significativamente a los modelos existentes.
Model | Phys. IQ Score ↑ | Spatial IoU ↑ | Spatio Temporal ↑ | Weighted Spatial IoU ↑ | MSE ↓ |
---|---|---|---|---|---|
V2V Models | |||||
Magi (V2V) | 56.02 | 0.367 | 0.270 | 0.304 | 0.005 |
VideoPoet (V2V) | 29.50 | 0.204 | 0.164 | 0.137 | 0.010 |
I2V Models | |||||
Magi (I2V) | 30.23 | 0.203 | 0.151 | 0.154 | 0.012 |
Kling1.6 (I2V) | 23.64 | 0.197 | 0.086 | 0.144 | 0.025 |
VideoPoet (I2V) | 20.30 | 0.141 | 0.126 | 0.087 | 0.012 |
Gen 3 (I2V) | 22.80 | 0.201 | 0.115 | 0.116 | 0.015 |
Wan2.1 (I2V) | 20.89 | 0.153 | 0.100 | 0.112 | 0.023 |
Sora (I2V) | 10.00 | 0.138 | 0.047 | 0.063 | 0.030 |
GroundTruth | 100.0 | 0.678 | 0.535 | 0.577 | 0.002 |
Por Qué Elegir MAGI-1
Experimenta la próxima generación de creación de video con IA con MAGI-1, donde la tecnología de vanguardia se encuentra con la transparencia del código abierto.
Generación de Video Sin Interrupciones
Toma el control de tu contenido con ajustes precisos de tiempo por fotograma, asegurando que tus videos cumplan con las especificaciones creativas exactas.
Control Preciso de la Línea de Tiempo
Produce videos con visuales claros y detallados y movimiento fluido, garantizando una experiencia profesional y cautivadora.
Calidad de Movimiento Mejorada
Experimenta movimientos realistas con nuestro procesamiento avanzado de movimiento, eliminando transiciones robóticas para videos verdaderamente naturales.
Innovación de Código Abierto
Únete a un ecosistema transparente donde todos los modelos e investigaciones están disponibles gratuitamente, fomentando la mejora colaborativa y la innovación.
Preguntas Frecuentes Sobre MAGI-1
¿Qué es MAGI-1?
MAGI-1 AI es un modelo avanzado de generación autoregresiva de video desarrollado por SandAI, diseñado para generar videos de alta calidad mediante la predicción de secuencias de fragmentos de video de manera autoregresiva. Este modelo está entrenado para eliminar el ruido de los fragmentos de video, permitiendo el modelado temporal causal y admitiendo la generación en streaming.
¿Cuáles son las características principales de MAGI-1?
Las características del modelo de generación de video MAGI-1 AI incluyen un VAE basado en Transformer para decodificación rápida y calidad de reconstrucción competitiva, un algoritmo de eliminación de ruido autoregresivo para generación eficiente de video, y una arquitectura de modelo de difusión que mejora la eficiencia del entrenamiento y la estabilidad a escala. También admite generación controlable mediante indicaciones por fragmentos, permitiendo transiciones suaves de escenas, síntesis de largo alcance y control preciso basado en texto.
¿Cómo maneja MAGI-1 la generación de video?
MAGI-1 AI genera videos fragmento por fragmento en lugar de como un todo. Cada fragmento (24 fotogramas) se procesa holísticamente, y la generación del siguiente fragmento comienza tan pronto como el actual alcanza cierto nivel de eliminación de ruido. Este diseño de pipeline permite el procesamiento concurrente de hasta cuatro fragmentos para una generación eficiente de video.
¿Qué variantes del modelo están disponibles para MAGI-1?
Las variantes del modelo para video MAGI-1 incluyen el modelo 24B optimizado para generación de video de alta fidelidad y el modelo 4.5B adecuado para entornos con recursos limitados. También están disponibles modelos destilados y cuantizados para una inferencia más rápida.
¿Cómo se desempeña MAGI-1 en las evaluaciones?
MAGI-1 AI logra un rendimiento de vanguardia entre los modelos de código abierto, destacando en el seguimiento de instrucciones y calidad de movimiento, posicionándose como un fuerte competidor potencial frente a modelos comerciales de código cerrado como Kling1.6. También demuestra una precisión superior en la predicción del comportamiento físico a través de la continuación de video, superando significativamente a todos los modelos existentes.
¿Cómo puedo ejecutar MAGI-1?
MAGI-1 AI se puede ejecutar usando Docker o directamente desde el código fuente. Se recomienda Docker para facilitar la configuración. Los usuarios pueden controlar la entrada y salida modificando parámetros en los scripts run.sh proporcionados.
¿Cuál es la licencia de MAGI-1?
MAGI-1 se publica bajo la Licencia Apache 2.0.
¿Qué es la función 'Expansión Infinita de Video' de MAGI-1?
La función 'Expansión Infinita de Video' de MAGI-1 permite la extensión sin interrupciones del contenido de video, combinada con 'control del eje temporal a nivel de segundo', permitiendo a los usuarios lograr transiciones de escena y edición refinada a través de indicaciones por fragmentos, satisfaciendo las necesidades de producción cinematográfica y narración.
¿Cuál es la importancia de la arquitectura autoregresiva de MAGI-1?
Gracias a las ventajas naturales de la arquitectura autoregresiva, MAGI-1 logra una precisión muy superior en la predicción del comportamiento físico a través de la continuación de video, superando significativamente a todos los modelos existentes.
¿Cuáles son las aplicaciones de MAGI-1?
MAGI-1 está diseñado para diversas aplicaciones como creación de contenido, desarrollo de juegos, postproducción de películas y educación. Ofrece una herramienta poderosa para la generación de video que se puede utilizar en múltiples escenarios.