Novo

MAGI-1: Geração de Vídeo Autorregressiva em Escala

Alto Desempenho·Leve·Totalmente Código AbertoArquitetura MoE para Geração e Compreensão Multimodal

O que é MAGI-1 AI?

MAGI-1 é um modelo avançado de geração de vídeo autorregressivo desenvolvido pela SandAI, projetado para gerar vídeos de alta qualidade prevendo sequências de fragmentos de vídeo de forma autorregressiva. Este modelo é treinado para remover ruído de fragmentos de vídeo, permitindo modelagem temporal causal e suportando geração em streaming. MAGI-1 se destaca em tarefas de imagem para vídeo (I2V), fornecendo alta consistência temporal e escalabilidade, graças a várias inovações algorítmicas e uma pilha de infraestrutura dedicada.

Visão Geral do MAGI-1

Recurso	Descrição
Ferramenta de IA	MAGI-1
Categoria	Modelo de Geração de Vídeo Autorregressivo
Função	Geração de Vídeo
Velocidade de Geração	Geração de Vídeo de Alta Eficiência
Artigo Científico	Artigo Científico
Site Oficial	GitHub - SandAI-org/MAGI-1

MAGI-1 AI: Recursos do Modelo

VAE Baseado em Transformer

Utiliza um autocodificador variacional com arquitetura baseada em transformer, oferecendo compressão espacial de 8x e temporal de 4x. Isso resulta em tempos de decodificação rápidos e qualidade de reconstrução competitiva.

Algoritmo de Remoção de Ruído Autorregressivo

Gera vídeos fragmento por fragmento, permitindo o processamento simultâneo de até quatro fragmentos para geração eficiente de vídeo. Cada fragmento (24 quadros) tem o ruído removido holisticamente, e o próximo fragmento começa assim que o atual atinge um certo nível de remoção de ruído.

Arquitetura do Modelo de Difusão

Construído sobre o Transformer de Difusão, incorporando inovações como Atenção Block-Causal, Bloco de Atenção Paralela, QK-Norm e GQA. Apresenta Normalização Sandwich em FFN, SwiGLU e Modulação Softcap para melhorar a eficiência do treinamento e a estabilidade em escala.

Algoritmo de Destilação

Usa destilação por atalho para treinar um único modelo baseado em velocidade que suporta orçamentos de inferência variáveis. Essa abordagem garante inferência eficiente com perda mínima de fidelidade.

MAGI-1: Zoo de Modelos

Fornecemos os pesos pré-treinados para o MAGI-1, incluindo os modelos 24B e 4.5B, bem como os modelos correspondentes de destilação e destilação+quantização. Os links dos pesos dos modelos são mostrados na tabela.

Modelo	Link	Máquina Recomendada
T5	T5	-
MAGI-1-VAE	MAGI-1-VAE	-
MAGI-1-24B	MAGI-1-24B	H100/H800 * 8
MAGI-1-24B-distill	MAGI-1-24B-distill	H100/H800 * 8
MAGI-1-24B-distill+fp8_quant	MAGI-1-24B-distill+fp8_quant	H100/H800 * 4 ou RTX 4090 * 8
MAGI-1-4.5B	MAGI-1-4.5B	RTX 4090 * 1

MAGI-1: Resultados da Avaliação

Avaliação Humana

MAGI-1 supera outros modelos de código aberto como Wan-2.1, , Hailuo e HunyuanVideo em termos de seguimento de instruções e qualidade de movimento, tornando-se um forte concorrente para modelos comerciais de código fechado.

Avaliação Física

MAGI-1 demonstra precisão superior na previsão de comportamento físico através da continuação de vídeo, superando significativamente os modelos existentes.

Model	Phys. IQ Score ↑	Spatial IoU ↑	Spatio Temporal ↑	Weighted Spatial IoU ↑	MSE ↓
V2V Models
Magi (V2V)	56.02	0.367	0.270	0.304	0.005
VideoPoet (V2V)	29.50	0.204	0.164	0.137	0.010
I2V Models
Magi (I2V)	30.23	0.203	0.151	0.154	0.012
Kling1.6 (I2V)	23.64	0.197	0.086	0.144	0.025
VideoPoet (I2V)	20.30	0.141	0.126	0.087	0.012
Gen 3 (I2V)	22.80	0.201	0.115	0.116	0.015
Wan2.1 (I2V)	20.89	0.153	0.100	0.112	0.023
Sora (I2V)	10.00	0.138	0.047	0.063	0.030
GroundTruth	100.0	0.678	0.535	0.577	0.002

Por Que Escolher o MAGI-1

Experimente a próxima geração de criação de vídeo com IA com o MAGI-1, onde tecnologia de ponta encontra transparência de código aberto.

Geração de Vídeo Contínua

Assuma o controle do seu conteúdo com ajustes precisos de tempo por quadro, garantindo que seus vídeos atendam às especificações criativas exatas.

Controle Preciso da Linha do Tempo

Produza vídeos com visuais claros e detalhados e movimento suave, garantindo uma experiência profissional e envolvente.

Qualidade de Movimento Aprimorada

Experimente movimento realista com nosso processamento avançado de movimento, eliminando transições robóticas para vídeos verdadeiramente naturais.

Inovação de Código Aberto

Junte-se a um ecossistema transparente onde todos os modelos e pesquisas estão disponíveis gratuitamente, promovendo melhoria colaborativa e inovação.

Perguntas Frequentes Sobre o MAGI-1

O que é o MAGI-1?

MAGI-1 AI é um modelo avançado de geração de vídeo autorregressivo desenvolvido pela SandAI, projetado para gerar vídeos de alta qualidade prevendo sequências de fragmentos de vídeo de forma autorregressiva. Este modelo é treinado para remover ruído de fragmentos de vídeo, permitindo modelagem temporal causal e suportando geração em streaming.

Quais são os principais recursos do MAGI-1?

Os recursos do modelo de geração de vídeo MAGI-1 AI incluem um VAE baseado em Transformer para decodificação rápida e qualidade de reconstrução competitiva, um algoritmo de remoção de ruído autorregressivo para geração eficiente de vídeo e uma arquitetura de modelo de difusão que melhora a eficiência do treinamento e a estabilidade em escala. Também suporta geração controlável via prompts por fragmento, permitindo transições suaves de cena, síntese de longo horizonte e controle detalhado baseado em texto.

Como o MAGI-1 lida com a geração de vídeo?

O MAGI-1 AI gera vídeos fragmento por fragmento, em vez de como um todo. Cada fragmento (24 quadros) tem o ruído removido holisticamente, e a geração do próximo fragmento começa assim que o atual atinge um certo nível de remoção de ruído. Este design de pipeline permite o processamento simultâneo de até quatro fragmentos para geração eficiente de vídeo.

Quais são as variantes do modelo disponíveis para o MAGI-1?

As variantes do modelo para vídeo MAGI-1 incluem o modelo 24B otimizado para geração de vídeo de alta fidelidade e o modelo 4.5B adequado para ambientes com recursos limitados. Modelos destilados e quantizados também estão disponíveis para inferência mais rápida.

Como o MAGI-1 se comporta nas avaliações?

O MAGI-1 AI alcança desempenho estado da arte entre modelos de código aberto, destacando-se no seguimento de instruções e qualidade de movimento, posicionando-se como um forte potencial concorrente para modelos comerciais de código fechado como o Kling1.6. Também demonstra precisão superior na previsão de comportamento físico através da continuação de vídeo, superando significativamente todos os modelos existentes.

Como posso executar o MAGI-1?

O MAGI-1 AI pode ser executado usando Docker ou diretamente do código-fonte. Docker é recomendado para facilidade de configuração. Os usuários podem controlar entrada e saída modificando parâmetros nos scripts run.sh fornecidos.

Qual é a licença do MAGI-1?

O MAGI-1 é lançado sob a Licença Apache 2.0.

O que é o recurso 'Expansão Infinita de Vídeo' do MAGI-1?

A função 'Expansão Infinita de Vídeo' do MAGI-1 permite a extensão contínua do conteúdo do vídeo, combinada com 'controle de eixo de tempo em nível de segundo', permitindo que os usuários alcancem transições de cena e edição refinada através de prompts por fragmento, atendendo às necessidades de produção cinematográfica e narrativa.

Qual é a importância da arquitetura autorregressiva do MAGI-1?

Graças às vantagens naturais da arquitetura autorregressiva, o MAGI-1 alcança precisão muito superior na previsão de comportamento físico através da continuação de vídeo—superando significativamente todos os modelos existentes.

Quais são as aplicações do MAGI-1?

O MAGI-1 é projetado para várias aplicações, como criação de conteúdo, desenvolvimento de jogos, pós-produção de filmes e educação. Oferece uma ferramenta poderosa para geração de vídeo que pode ser usada em múltiplos cenários.