MAGI-1 : Génération Vidéo Autorégressive à Grande Échelle
Haute Performance·Léger·Entièrement Open-SourceArchitecture MoE pour la Génération et la Compréhension Multimodale
Qu'est-ce que MAGI-1 AI ?
MAGI-1 est un modèle avancé de génération vidéo autorégressive développé par SandAI, conçu pour générer des vidéos de haute qualité en prédisant des séquences de segments vidéo de manière autorégressive. Ce modèle est entraîné à débruiter les segments vidéo, permettant une modélisation temporelle causale et supportant la génération en streaming. MAGI-1 excelle dans les tâches de conversion d'image en vidéo (I2V), offrant une haute cohérence temporelle et une évolutivité, grâce à plusieurs innovations algorithmiques et une infrastructure dédiée.
Aperçu de MAGI-1
Caractéristique | Description |
---|---|
Outil IA | MAGI-1 |
Catégorie | Modèle de Génération Vidéo Autorégressif |
Fonction | Génération de Vidéo |
Vitesse de Génération | Génération Vidéo Haute Efficacité |
Article de Recherche | Article de Recherche |
Site Web Officiel | GitHub - SandAI-org/MAGI-1 |
MAGI-1 AI : Caractéristiques du Modèle
VAE basé sur Transformer
Utilise un auto-encodeur variationnel avec une architecture basée sur Transformer, offrant une compression spatiale 8x et temporelle 4x. Cela permet des temps de décodage rapides et une qualité de reconstruction compétitive.
Algorithme de Débruitage Autorégressif
Génère des vidéos segment par segment, permettant le traitement simultané jusqu'à quatre segments pour une génération vidéo efficace. Chaque segment (24 images) est débruité de manière holistique, et le segment suivant commence dès que le segment actuel atteint un certain niveau de débruitage.

Architecture du Modèle de Diffusion
Construit sur le Diffusion Transformer, intégrant des innovations comme Block-Causal Attention, Parallel Attention Block, QK-Norm et GQA. Comprend la Sandwich Normalization dans FFN, SwiGLU, et Softcap Modulation pour améliorer l'efficacité de l'entraînement et la stabilité à grande échelle.

Algorithme de Distillation
Utilise la distillation raccourcie pour entraîner un modèle unique basé sur la vélocité supportant des budgets d'inférence variables. Cette approche assure une inférence efficace avec une perte minimale de fidélité.
MAGI-1 : Zoo de Modèles
Nous fournissons les poids pré-entraînés pour MAGI-1, incluant les modèles 24B et 4.5B, ainsi que les modèles correspondants de distillation et distillation+quantification. Les liens des poids des modèles sont affichés dans le tableau.
Modèle | Lien | Machine Recommandée |
---|---|---|
T5 | T5 | - |
MAGI-1-VAE | MAGI-1-VAE | - |
MAGI-1-24B | MAGI-1-24B | H100/H800 * 8 |
MAGI-1-24B-distill | MAGI-1-24B-distill | H100/H800 * 8 |
MAGI-1-24B-distill+fp8_quant | MAGI-1-24B-distill+fp8_quant | H100/H800 * 4 ou RTX 4090 * 8 |
MAGI-1-4.5B | MAGI-1-4.5B | RTX 4090 * 1 |
MAGI-1 : Résultats d'Évaluation
Évaluation Humaine
MAGI-1 surpasse d'autres modèles open-source comme Wan-2.1, , Hailuo, et HunyuanVideo en termes de suivi des instructions et de qualité de mouvement, en faisant un concurrent solide face aux modèles commerciaux propriétaires.

Évaluation Physique
MAGI-1 démontre une précision supérieure dans la prédiction du comportement physique à travers la continuation vidéo, surpassant significativement les modèles existants.
Model | Phys. IQ Score ↑ | Spatial IoU ↑ | Spatio Temporal ↑ | Weighted Spatial IoU ↑ | MSE ↓ |
---|---|---|---|---|---|
V2V Models | |||||
Magi (V2V) | 56.02 | 0.367 | 0.270 | 0.304 | 0.005 |
VideoPoet (V2V) | 29.50 | 0.204 | 0.164 | 0.137 | 0.010 |
I2V Models | |||||
Magi (I2V) | 30.23 | 0.203 | 0.151 | 0.154 | 0.012 |
Kling1.6 (I2V) | 23.64 | 0.197 | 0.086 | 0.144 | 0.025 |
VideoPoet (I2V) | 20.30 | 0.141 | 0.126 | 0.087 | 0.012 |
Gen 3 (I2V) | 22.80 | 0.201 | 0.115 | 0.116 | 0.015 |
Wan2.1 (I2V) | 20.89 | 0.153 | 0.100 | 0.112 | 0.023 |
Sora (I2V) | 10.00 | 0.138 | 0.047 | 0.063 | 0.030 |
GroundTruth | 100.0 | 0.678 | 0.535 | 0.577 | 0.002 |
Pourquoi Choisir MAGI-1
Découvrez la prochaine génération de création vidéo IA avec MAGI-1, où la technologie de pointe rencontre la transparence open-source.
Génération Vidéo Fluide
Prenez le contrôle de votre contenu avec des ajustements temporels précis à l'image près, garantissant que vos vidéos répondent aux spécifications créatives exactes.
Contrôle Précis de la Timeline
Produisez des vidéos avec des visuels clairs et détaillés et un mouvement fluide, assurant une expérience professionnelle et captivante.
Qualité de Mouvement Améliorée
Expérimentez des mouvements réalistes avec notre traitement avancé du mouvement, éliminant les transitions robotiques pour des vidéos vraiment naturelles.
Innovation Open-Source
Rejoignez un écosystème transparent où tous les modèles et recherches sont disponibles gratuitement, favorisant l'amélioration collaborative et l'innovation.
Questions Fréquemment Posées sur MAGI-1
Qu'est-ce que MAGI-1 ?
MAGI-1 AI est un modèle avancé de génération vidéo autorégressive développé par SandAI, conçu pour générer des vidéos de haute qualité en prédisant des séquences de segments vidéo de manière autorégressive. Ce modèle est entraîné à débruiter les segments vidéo, permettant une modélisation temporelle causale et supportant la génération en streaming.
Quelles sont les principales caractéristiques de MAGI-1 ?
Les caractéristiques du modèle de génération vidéo MAGI-1 AI incluent un VAE basé sur Transformer pour un décodage rapide et une qualité de reconstruction compétitive, un algorithme de débruitage autorégressif pour une génération vidéo efficace, et une architecture de modèle de diffusion qui améliore l'efficacité de l'entraînement et la stabilité à grande échelle. Il prend également en charge la génération contrôlable via des invites par segment, permettant des transitions de scène fluides, une synthèse à long terme et un contrôle précis basé sur le texte.
Comment MAGI-1 gère-t-il la génération vidéo ?
MAGI-1 AI génère des vidéos segment par segment plutôt que dans leur ensemble. Chaque segment (24 images) est débruité de manière holistique, et la génération du segment suivant commence dès que le segment actuel atteint un certain niveau de débruitage. Cette conception de pipeline permet le traitement simultané jusqu'à quatre segments pour une génération vidéo efficace.
Quelles sont les variantes de modèle disponibles pour MAGI-1 ?
Les variantes du modèle pour la vidéo MAGI-1 incluent le modèle 24B optimisé pour la génération vidéo haute fidélité et le modèle 4.5B adapté aux environnements aux ressources limitées. Des modèles distillés et quantifiés sont également disponibles pour une inférence plus rapide.
Comment MAGI-1 performe-t-il dans les évaluations ?
MAGI-1 AI atteint des performances de pointe parmi les modèles open-source, excellant dans le suivi des instructions et la qualité du mouvement, se positionnant comme un concurrent potentiel solide face aux modèles commerciaux propriétaires comme Kling1.6. Il démontre également une précision supérieure dans la prédiction du comportement physique à travers la continuation vidéo, surpassant significativement tous les modèles existants.
Comment puis-je exécuter MAGI-1 ?
MAGI-1 AI peut être exécuté en utilisant Docker ou directement depuis le code source. Docker est recommandé pour faciliter la configuration. Les utilisateurs peuvent contrôler l'entrée et la sortie en modifiant les paramètres dans les scripts run.sh fournis.
Quelle est la licence de MAGI-1 ?
MAGI-1 est publié sous la Licence Apache 2.0.
Qu'est-ce que la fonction 'Extension Vidéo Infinie' de MAGI-1 ?
La fonction 'Extension Vidéo Infinie' de MAGI-1 permet l'extension fluide du contenu vidéo, combinée au 'contrôle de l'axe temporel au niveau de la seconde', permettant aux utilisateurs de réaliser des transitions de scène et une édition raffinée via des invites segment par segment, répondant aux besoins de la production cinématographique et de la narration.
Quelle est l'importance de l'architecture autorégressive de MAGI-1 ?
Grâce aux avantages naturels de l'architecture autorégressive, MAGI-1 atteint une précision largement supérieure dans la prédiction du comportement physique à travers la continuation vidéo, surpassant significativement tous les modèles existants.
Quelles sont les applications de MAGI-1 ?
MAGI-1 est conçu pour diverses applications telles que la création de contenu, le développement de jeux, la post-production cinématographique et l'éducation. Il offre un outil puissant pour la génération vidéo qui peut être utilisé dans de multiples scénarios.