MAGI-1: 대규모 자기회귀 비디오 생성

고성능경량화완전 오픈소스멀티모달 생성 및 이해를 위한 MoE 아키텍처

MAGI-1 AI란?

MAGI-1은 SandAI가 개발한 고급 자기회귀 비디오 생성 모델로, 자기회귀 방식으로 비디오 청크 시퀀스를 예측하여 고품질 비디오를 생성하도록 설계되었습니다. 이 모델은 비디오 청크의 노이즈를 제거하도록 훈련되어 인과적 시간 모델링과 스트리밍 생성을 지원합니다. MAGI-1은 이미지-비디오 변환(I2V) 작업에서 탁월한 성능을 보이며, 여러 알고리즘 혁신과 전용 인프라 스택 덕분에 높은 시간적 일관성과 확장성을 제공합니다.

MAGI-1 개요

특징설명
AI 도구MAGI-1
카테고리자기회귀 비디오 생성 모델
기능비디오 생성
생성 속도고효율 비디오 생성
연구 논문연구 논문
공식 웹사이트GitHub - SandAI-org/MAGI-1

MAGI-1 AI: 모델 특징

Transformer 기반 VAE

Transformer 기반 아키텍처를 가진 변분 오토인코더를 활용하여 공간적으로 8배, 시간적으로 4배의 압축을 제공합니다. 이는 빠른 디코딩 시간과 경쟁력 있는 재구성 품질을 실현합니다.

자기회귀 노이즈 제거 알고리즘

비디오를 청크별로 생성하여 최대 4개의 청크를 동시에 처리할 수 있어 효율적인 비디오 생성이 가능합니다. 각 청크(24프레임)는 전체적으로 노이즈가 제거되며, 현재 청크가 특정 노이즈 제거 수준에 도달하면 다음 청크 생성이 시작됩니다.

MAGI-1 Features

확산 모델 아키텍처

Diffusion Transformer를 기반으로 하며, Block-Causal Attention, Parallel Attention Block, QK-Norm, GQA와 같은 혁신을 통합했습니다. FFN의 Sandwich Normalization, SwiGLU, Softcap Modulation을 특징으로 하여 대규모에서의 훈련 효율성과 안정성을 향상시킵니다.

MAGI-1 Features

증류 알고리즘

단축 증류를 사용하여 가변 추론 예산을 지원하는 단일 속도 기반 모델을 훈련합니다. 이 접근 방식은 충실도 손실을 최소화하면서 효율적인 추론을 보장합니다.

MAGI-1: 모델 동물원

MAGI-1의 사전 훈련된 가중치를 제공하며, 여기에는 24B와 4.5B 모델, 그리고 해당하는 증류 및 증류+양자화 모델이 포함됩니다. 모델 가중치 링크는 표에 표시되어 있습니다.

모델링크권장 기기
T5T5-
MAGI-1-VAEMAGI-1-VAE-
MAGI-1-24BMAGI-1-24BH100/H800 * 8
MAGI-1-24B-distillMAGI-1-24B-distillH100/H800 * 8
MAGI-1-24B-distill+fp8_quantMAGI-1-24B-distill+fp8_quantH100/H800 * 4 또는 RTX 4090 * 8
MAGI-1-4.5BMAGI-1-4.5BRTX 4090 * 1

MAGI-1: 평가 결과

인간 평가

MAGI-1은 Wan-2.1, , Hailuo, HunyuanVideo와 같은 다른 오픈소스 모델들을 지시 따르기와 모션 품질 면에서 능가하여 클로즈드 소스 상용 모델들의 강력한 경쟁자가 되고 있습니다.

MAGI-1 Evaluation

물리적 평가

MAGI-1은 물리적 행동 예측에서 우수한 정밀도 를 보여주며, 비디오 연속성을 통해 기존 모델들을 크게 능가하는 성능을 보여줍니다.

ModelPhys. IQ Score Spatial IoU Spatio Temporal Weighted Spatial IoU MSE
V2V Models
Magi (V2V)56.020.3670.2700.3040.005
VideoPoet (V2V)29.500.2040.1640.1370.010
I2V Models
Magi (I2V)30.230.2030.1510.1540.012
Kling1.6 (I2V)23.640.1970.0860.1440.025
VideoPoet (I2V)20.300.1410.1260.0870.012
Gen 3 (I2V)22.800.2010.1150.1160.015
Wan2.1 (I2V)20.890.1530.1000.1120.023
Sora (I2V)10.000.1380.0470.0630.030
GroundTruth100.00.6780.5350.5770.002

MAGI-1을 선택하는 이유

최첨단 기술과 오픈소스 투명성이 만나는 MAGI-1과 함께 차세대 AI 비디오 제작을 경험하세요.

원활한 비디오 생성

프레임 단위의 정확한 타이밍 조정으로 콘텐츠를 제어하여 비디오가 정확한 창의적 사양을 충족하도록 보장합니다.

정밀한 타임라인 제어

선명하고 상세한 시각적 효과와 부드러운 움직임을 가진 비디오를 제작하여 전문적이고 매력적인 경험을 보장합니다.

향상된 모션 품질

고급 모션 처리를 통해 생동감 있는 움직임을 경험하고, 로봇 같은 전환을 제거하여 진정으로 자연스러운 비디오를 구현합니다.

오픈소스 혁신

모든 모델과 연구가 무료로 제공되는 투명한 생태계에 참여하여 협력적 개선과 혁신을 촉진합니다.

MAGI-1에 대한 자주 묻는 질문

MAGI-1이란 무엇인가요?

MAGI-1 AI는 SandAI가 개발한 고급 자기회귀 비디오 생성 모델로, 자기회귀 방식으로 비디오 청크 시퀀스를 예측하여 고품질 비디오를 생성하도록 설계되었습니다. 이 모델은 비디오 청크의 노이즈를 제거하도록 훈련되어 인과적 시간 모델링과 스트리밍 생성을 지원합니다.

MAGI-1의 주요 특징은 무엇인가요?

MAGI-1 AI 비디오 생성 모델의 특징에는 빠른 디코딩과 경쟁력 있는 재구성 품질을 위한 Transformer 기반 VAE, 효율적인 비디오 생성을 위한 자기회귀 노이즈 제거 알고리즘, 대규모에서의 훈련 효율성과 안정성을 향상시키는 확산 모델 아키텍처가 포함됩니다. 또한 청크별 프롬프팅을 통한 제어 가능한 생성을 지원하여 부드러운 장면 전환, 장기 합성, 세밀한 텍스트 기반 제어를 가능하게 합니다.

MAGI-1은 어떻게 비디오 생성을 처리하나요?

MAGI-1 AI는 비디오를 전체가 아닌 청크별로 생성합니다. 각 청크(24프레임)는 전체적으로 노이즈가 제거되며, 현재 청크가 특정 노이즈 제거 수준에 도달하면 다음 청크 생성이 시작됩니다. 이 파이프라인 설계는 최대 4개의 청크를 동시에 처리할 수 있게 하여 효율적인 비디오 생성을 가능하게 합니다.

MAGI-1에서 사용 가능한 모델 변형은 무엇인가요?

MAGI-1 비디오의 모델 변형에는 고충실도 비디오 생성에 최적화된 24B 모델과 자원이 제한된 환경에 적합한 4.5B 모델이 포함됩니다. 더 빠른 추론을 위한 증류 및 양자화 모델도 사용할 수 있습니다.

MAGI-1은 평가에서 어떤 성능을 보여주나요?

MAGI-1 AI는 오픈소스 모델 중 최고 수준의 성능을 달성하며, 지시 따르기와 모션 품질에서 뛰어나 Kling1.6과 같은 클로즈드 소스 상용 모델의 강력한 잠재적 경쟁자로 자리매김하고 있습니다. 또한 비디오 연속성을 통한 물리적 행동 예측에서 우수한 정밀도를 보여주며 기존의 모든 모델을 크게 능가합니다.

MAGI-1은 어떻게 실행할 수 있나요?

MAGI-1 AI는 Docker를 사용하거나 소스 코드에서 직접 실행할 수 있습니다. 설정의 용이성을 위해 Docker가 권장됩니다. 사용자는 제공된 run.sh 스크립트의 매개변수를 수정하여 입력과 출력을 제어할 수 있습니다.

MAGI-1의 라이선스는 무엇인가요?

MAGI-1은 Apache License 2.0 하에 배포됩니다.

MAGI-1의 '무한 비디오 확장' 기능이란 무엇인가요?

MAGI-1의 '무한 비디오 확장' 기능은 '초 단위 시간축 제어'와 결합하여 비디오 콘텐츠의 원활한 확장을 가능하게 하며, 청크별 프롬프팅을 통해 장면 전환과 정교한 편집을 실현하여 영화 제작과 스토리텔링의 요구를 충족합니다.

MAGI-1의 자기회귀 아키텍처의 중요성은 무엇인가요?

자기회귀 아키텍처의 자연스러운 장점 덕분에 MAGI-1은 비디오 연속성을 통한 물리적 행동 예측에서 기존의 모든 모델을 크게 능가하는 우수한 정밀도를 달성합니다.

MAGI-1의 응용 분야는 무엇인가요?

MAGI-1은 콘텐츠 제작, 게임 개발, 영화 후반 작업, 교육 등 다양한 응용 분야를 위해 설계되었습니다. 여러 시나리오에서 사용할 수 있는 강력한 비디오 생성 도구를 제공합니다.