MAGI-1: Geração de Vídeo Autorregressiva em Escala
Alto Desempenho·Leve·Totalmente Código AbertoArquitetura MoE para Geração e Compreensão Multimodal
O que é MAGI-1 AI?
MAGI-1 é um modelo avançado de geração de vídeo autorregressivo desenvolvido pela SandAI, projetado para gerar vídeos de alta qualidade prevendo sequências de fragmentos de vídeo de forma autorregressiva. Este modelo é treinado para remover ruído de fragmentos de vídeo, permitindo modelagem temporal causal e suportando geração em streaming. MAGI-1 se destaca em tarefas de imagem para vídeo (I2V), fornecendo alta consistência temporal e escalabilidade, graças a várias inovações algorítmicas e uma pilha de infraestrutura dedicada.
Visão Geral do MAGI-1
Recurso | Descrição |
---|---|
Ferramenta de IA | MAGI-1 |
Categoria | Modelo de Geração de Vídeo Autorregressivo |
Função | Geração de Vídeo |
Velocidade de Geração | Geração de Vídeo de Alta Eficiência |
Artigo Científico | Artigo Científico |
Site Oficial | GitHub - SandAI-org/MAGI-1 |
MAGI-1 AI: Recursos do Modelo
VAE Baseado em Transformer
Utiliza um autocodificador variacional com arquitetura baseada em transformer, oferecendo compressão espacial de 8x e temporal de 4x. Isso resulta em tempos de decodificação rápidos e qualidade de reconstrução competitiva.
Algoritmo de Remoção de Ruído Autorregressivo
Gera vídeos fragmento por fragmento, permitindo o processamento simultâneo de até quatro fragmentos para geração eficiente de vídeo. Cada fragmento (24 quadros) tem o ruído removido holisticamente, e o próximo fragmento começa assim que o atual atinge um certo nível de remoção de ruído.

Arquitetura do Modelo de Difusão
Construído sobre o Transformer de Difusão, incorporando inovações como Atenção Block-Causal, Bloco de Atenção Paralela, QK-Norm e GQA. Apresenta Normalização Sandwich em FFN, SwiGLU e Modulação Softcap para melhorar a eficiência do treinamento e a estabilidade em escala.

Algoritmo de Destilação
Usa destilação por atalho para treinar um único modelo baseado em velocidade que suporta orçamentos de inferência variáveis. Essa abordagem garante inferência eficiente com perda mínima de fidelidade.
MAGI-1: Zoo de Modelos
Fornecemos os pesos pré-treinados para o MAGI-1, incluindo os modelos 24B e 4.5B, bem como os modelos correspondentes de destilação e destilação+quantização. Os links dos pesos dos modelos são mostrados na tabela.
Modelo | Link | Máquina Recomendada |
---|---|---|
T5 | T5 | - |
MAGI-1-VAE | MAGI-1-VAE | - |
MAGI-1-24B | MAGI-1-24B | H100/H800 * 8 |
MAGI-1-24B-distill | MAGI-1-24B-distill | H100/H800 * 8 |
MAGI-1-24B-distill+fp8_quant | MAGI-1-24B-distill+fp8_quant | H100/H800 * 4 ou RTX 4090 * 8 |
MAGI-1-4.5B | MAGI-1-4.5B | RTX 4090 * 1 |
MAGI-1: Resultados da Avaliação
Avaliação Humana
MAGI-1 supera outros modelos de código aberto como Wan-2.1, , Hailuo e HunyuanVideo em termos de seguimento de instruções e qualidade de movimento, tornando-se um forte concorrente para modelos comerciais de código fechado.

Avaliação Física
MAGI-1 demonstra precisão superior na previsão de comportamento físico através da continuação de vídeo, superando significativamente os modelos existentes.
Model | Phys. IQ Score ↑ | Spatial IoU ↑ | Spatio Temporal ↑ | Weighted Spatial IoU ↑ | MSE ↓ |
---|---|---|---|---|---|
V2V Models | |||||
Magi (V2V) | 56.02 | 0.367 | 0.270 | 0.304 | 0.005 |
VideoPoet (V2V) | 29.50 | 0.204 | 0.164 | 0.137 | 0.010 |
I2V Models | |||||
Magi (I2V) | 30.23 | 0.203 | 0.151 | 0.154 | 0.012 |
Kling1.6 (I2V) | 23.64 | 0.197 | 0.086 | 0.144 | 0.025 |
VideoPoet (I2V) | 20.30 | 0.141 | 0.126 | 0.087 | 0.012 |
Gen 3 (I2V) | 22.80 | 0.201 | 0.115 | 0.116 | 0.015 |
Wan2.1 (I2V) | 20.89 | 0.153 | 0.100 | 0.112 | 0.023 |
Sora (I2V) | 10.00 | 0.138 | 0.047 | 0.063 | 0.030 |
GroundTruth | 100.0 | 0.678 | 0.535 | 0.577 | 0.002 |
Por Que Escolher o MAGI-1
Experimente a próxima geração de criação de vídeo com IA com o MAGI-1, onde tecnologia de ponta encontra transparência de código aberto.
Geração de Vídeo Contínua
Assuma o controle do seu conteúdo com ajustes precisos de tempo por quadro, garantindo que seus vídeos atendam às especificações criativas exatas.
Controle Preciso da Linha do Tempo
Produza vídeos com visuais claros e detalhados e movimento suave, garantindo uma experiência profissional e envolvente.
Qualidade de Movimento Aprimorada
Experimente movimento realista com nosso processamento avançado de movimento, eliminando transições robóticas para vídeos verdadeiramente naturais.
Inovação de Código Aberto
Junte-se a um ecossistema transparente onde todos os modelos e pesquisas estão disponíveis gratuitamente, promovendo melhoria colaborativa e inovação.
Perguntas Frequentes Sobre o MAGI-1
O que é o MAGI-1?
MAGI-1 AI é um modelo avançado de geração de vídeo autorregressivo desenvolvido pela SandAI, projetado para gerar vídeos de alta qualidade prevendo sequências de fragmentos de vídeo de forma autorregressiva. Este modelo é treinado para remover ruído de fragmentos de vídeo, permitindo modelagem temporal causal e suportando geração em streaming.
Quais são os principais recursos do MAGI-1?
Os recursos do modelo de geração de vídeo MAGI-1 AI incluem um VAE baseado em Transformer para decodificação rápida e qualidade de reconstrução competitiva, um algoritmo de remoção de ruído autorregressivo para geração eficiente de vídeo e uma arquitetura de modelo de difusão que melhora a eficiência do treinamento e a estabilidade em escala. Também suporta geração controlável via prompts por fragmento, permitindo transições suaves de cena, síntese de longo horizonte e controle detalhado baseado em texto.
Como o MAGI-1 lida com a geração de vídeo?
O MAGI-1 AI gera vídeos fragmento por fragmento, em vez de como um todo. Cada fragmento (24 quadros) tem o ruído removido holisticamente, e a geração do próximo fragmento começa assim que o atual atinge um certo nível de remoção de ruído. Este design de pipeline permite o processamento simultâneo de até quatro fragmentos para geração eficiente de vídeo.
Quais são as variantes do modelo disponíveis para o MAGI-1?
As variantes do modelo para vídeo MAGI-1 incluem o modelo 24B otimizado para geração de vídeo de alta fidelidade e o modelo 4.5B adequado para ambientes com recursos limitados. Modelos destilados e quantizados também estão disponíveis para inferência mais rápida.
Como o MAGI-1 se comporta nas avaliações?
O MAGI-1 AI alcança desempenho estado da arte entre modelos de código aberto, destacando-se no seguimento de instruções e qualidade de movimento, posicionando-se como um forte potencial concorrente para modelos comerciais de código fechado como o Kling1.6. Também demonstra precisão superior na previsão de comportamento físico através da continuação de vídeo, superando significativamente todos os modelos existentes.
Como posso executar o MAGI-1?
O MAGI-1 AI pode ser executado usando Docker ou diretamente do código-fonte. Docker é recomendado para facilidade de configuração. Os usuários podem controlar entrada e saída modificando parâmetros nos scripts run.sh fornecidos.
Qual é a licença do MAGI-1?
O MAGI-1 é lançado sob a Licença Apache 2.0.
O que é o recurso 'Expansão Infinita de Vídeo' do MAGI-1?
A função 'Expansão Infinita de Vídeo' do MAGI-1 permite a extensão contínua do conteúdo do vídeo, combinada com 'controle de eixo de tempo em nível de segundo', permitindo que os usuários alcancem transições de cena e edição refinada através de prompts por fragmento, atendendo às necessidades de produção cinematográfica e narrativa.
Qual é a importância da arquitetura autorregressiva do MAGI-1?
Graças às vantagens naturais da arquitetura autorregressiva, o MAGI-1 alcança precisão muito superior na previsão de comportamento físico através da continuação de vídeo—superando significativamente todos os modelos existentes.
Quais são as aplicações do MAGI-1?
O MAGI-1 é projetado para várias aplicações, como criação de conteúdo, desenvolvimento de jogos, pós-produção de filmes e educação. Oferece uma ferramenta poderosa para geração de vídeo que pode ser usada em múltiplos cenários.