MAGI-1: Geração de Vídeo Autorregressiva em Escala

Alto DesempenhoLeveTotalmente Código AbertoArquitetura MoE para Geração e Compreensão Multimodal

O que é MAGI-1 AI?

MAGI-1 é um modelo avançado de geração de vídeo autorregressivo desenvolvido pela SandAI, projetado para gerar vídeos de alta qualidade prevendo sequências de fragmentos de vídeo de forma autorregressiva. Este modelo é treinado para remover ruído de fragmentos de vídeo, permitindo modelagem temporal causal e suportando geração em streaming. MAGI-1 se destaca em tarefas de imagem para vídeo (I2V), fornecendo alta consistência temporal e escalabilidade, graças a várias inovações algorítmicas e uma pilha de infraestrutura dedicada.

Visão Geral do MAGI-1

RecursoDescrição
Ferramenta de IAMAGI-1
CategoriaModelo de Geração de Vídeo Autorregressivo
FunçãoGeração de Vídeo
Velocidade de GeraçãoGeração de Vídeo de Alta Eficiência
Artigo CientíficoArtigo Científico
Site OficialGitHub - SandAI-org/MAGI-1

MAGI-1 AI: Recursos do Modelo

VAE Baseado em Transformer

Utiliza um autocodificador variacional com arquitetura baseada em transformer, oferecendo compressão espacial de 8x e temporal de 4x. Isso resulta em tempos de decodificação rápidos e qualidade de reconstrução competitiva.

Algoritmo de Remoção de Ruído Autorregressivo

Gera vídeos fragmento por fragmento, permitindo o processamento simultâneo de até quatro fragmentos para geração eficiente de vídeo. Cada fragmento (24 quadros) tem o ruído removido holisticamente, e o próximo fragmento começa assim que o atual atinge um certo nível de remoção de ruído.

MAGI-1 Features

Arquitetura do Modelo de Difusão

Construído sobre o Transformer de Difusão, incorporando inovações como Atenção Block-Causal, Bloco de Atenção Paralela, QK-Norm e GQA. Apresenta Normalização Sandwich em FFN, SwiGLU e Modulação Softcap para melhorar a eficiência do treinamento e a estabilidade em escala.

MAGI-1 Features

Algoritmo de Destilação

Usa destilação por atalho para treinar um único modelo baseado em velocidade que suporta orçamentos de inferência variáveis. Essa abordagem garante inferência eficiente com perda mínima de fidelidade.

MAGI-1: Zoo de Modelos

Fornecemos os pesos pré-treinados para o MAGI-1, incluindo os modelos 24B e 4.5B, bem como os modelos correspondentes de destilação e destilação+quantização. Os links dos pesos dos modelos são mostrados na tabela.

ModeloLinkMáquina Recomendada
T5T5-
MAGI-1-VAEMAGI-1-VAE-
MAGI-1-24BMAGI-1-24BH100/H800 * 8
MAGI-1-24B-distillMAGI-1-24B-distillH100/H800 * 8
MAGI-1-24B-distill+fp8_quantMAGI-1-24B-distill+fp8_quantH100/H800 * 4 ou RTX 4090 * 8
MAGI-1-4.5BMAGI-1-4.5BRTX 4090 * 1

MAGI-1: Resultados da Avaliação

Avaliação Humana

MAGI-1 supera outros modelos de código aberto como Wan-2.1, , Hailuo e HunyuanVideo em termos de seguimento de instruções e qualidade de movimento, tornando-se um forte concorrente para modelos comerciais de código fechado.

MAGI-1 Evaluation

Avaliação Física

MAGI-1 demonstra precisão superior na previsão de comportamento físico através da continuação de vídeo, superando significativamente os modelos existentes.

ModelPhys. IQ Score Spatial IoU Spatio Temporal Weighted Spatial IoU MSE
V2V Models
Magi (V2V)56.020.3670.2700.3040.005
VideoPoet (V2V)29.500.2040.1640.1370.010
I2V Models
Magi (I2V)30.230.2030.1510.1540.012
Kling1.6 (I2V)23.640.1970.0860.1440.025
VideoPoet (I2V)20.300.1410.1260.0870.012
Gen 3 (I2V)22.800.2010.1150.1160.015
Wan2.1 (I2V)20.890.1530.1000.1120.023
Sora (I2V)10.000.1380.0470.0630.030
GroundTruth100.00.6780.5350.5770.002

Por Que Escolher o MAGI-1

Experimente a próxima geração de criação de vídeo com IA com o MAGI-1, onde tecnologia de ponta encontra transparência de código aberto.

Geração de Vídeo Contínua

Assuma o controle do seu conteúdo com ajustes precisos de tempo por quadro, garantindo que seus vídeos atendam às especificações criativas exatas.

Controle Preciso da Linha do Tempo

Produza vídeos com visuais claros e detalhados e movimento suave, garantindo uma experiência profissional e envolvente.

Qualidade de Movimento Aprimorada

Experimente movimento realista com nosso processamento avançado de movimento, eliminando transições robóticas para vídeos verdadeiramente naturais.

Inovação de Código Aberto

Junte-se a um ecossistema transparente onde todos os modelos e pesquisas estão disponíveis gratuitamente, promovendo melhoria colaborativa e inovação.

Perguntas Frequentes Sobre o MAGI-1

O que é o MAGI-1?

MAGI-1 AI é um modelo avançado de geração de vídeo autorregressivo desenvolvido pela SandAI, projetado para gerar vídeos de alta qualidade prevendo sequências de fragmentos de vídeo de forma autorregressiva. Este modelo é treinado para remover ruído de fragmentos de vídeo, permitindo modelagem temporal causal e suportando geração em streaming.

Quais são os principais recursos do MAGI-1?

Os recursos do modelo de geração de vídeo MAGI-1 AI incluem um VAE baseado em Transformer para decodificação rápida e qualidade de reconstrução competitiva, um algoritmo de remoção de ruído autorregressivo para geração eficiente de vídeo e uma arquitetura de modelo de difusão que melhora a eficiência do treinamento e a estabilidade em escala. Também suporta geração controlável via prompts por fragmento, permitindo transições suaves de cena, síntese de longo horizonte e controle detalhado baseado em texto.

Como o MAGI-1 lida com a geração de vídeo?

O MAGI-1 AI gera vídeos fragmento por fragmento, em vez de como um todo. Cada fragmento (24 quadros) tem o ruído removido holisticamente, e a geração do próximo fragmento começa assim que o atual atinge um certo nível de remoção de ruído. Este design de pipeline permite o processamento simultâneo de até quatro fragmentos para geração eficiente de vídeo.

Quais são as variantes do modelo disponíveis para o MAGI-1?

As variantes do modelo para vídeo MAGI-1 incluem o modelo 24B otimizado para geração de vídeo de alta fidelidade e o modelo 4.5B adequado para ambientes com recursos limitados. Modelos destilados e quantizados também estão disponíveis para inferência mais rápida.

Como o MAGI-1 se comporta nas avaliações?

O MAGI-1 AI alcança desempenho estado da arte entre modelos de código aberto, destacando-se no seguimento de instruções e qualidade de movimento, posicionando-se como um forte potencial concorrente para modelos comerciais de código fechado como o Kling1.6. Também demonstra precisão superior na previsão de comportamento físico através da continuação de vídeo, superando significativamente todos os modelos existentes.

Como posso executar o MAGI-1?

O MAGI-1 AI pode ser executado usando Docker ou diretamente do código-fonte. Docker é recomendado para facilidade de configuração. Os usuários podem controlar entrada e saída modificando parâmetros nos scripts run.sh fornecidos.

Qual é a licença do MAGI-1?

O MAGI-1 é lançado sob a Licença Apache 2.0.

O que é o recurso 'Expansão Infinita de Vídeo' do MAGI-1?

A função 'Expansão Infinita de Vídeo' do MAGI-1 permite a extensão contínua do conteúdo do vídeo, combinada com 'controle de eixo de tempo em nível de segundo', permitindo que os usuários alcancem transições de cena e edição refinada através de prompts por fragmento, atendendo às necessidades de produção cinematográfica e narrativa.

Qual é a importância da arquitetura autorregressiva do MAGI-1?

Graças às vantagens naturais da arquitetura autorregressiva, o MAGI-1 alcança precisão muito superior na previsão de comportamento físico através da continuação de vídeo—superando significativamente todos os modelos existentes.

Quais são as aplicações do MAGI-1?

O MAGI-1 é projetado para várias aplicações, como criação de conteúdo, desenvolvimento de jogos, pós-produção de filmes e educação. Oferece uma ferramenta poderosa para geração de vídeo que pode ser usada em múltiplos cenários.