MAGI-1: Generasi Video Autoregresif dalam Skala Besar
Kinerja Tinggi·Ringan·Sepenuhnya Open-SourceArsitektur MoE untuk Generasi & Pemahaman Multimodal
Apa itu MAGI-1 AI?
MAGI-1 adalah model generasi video autoregresif canggih yang dikembangkan oleh SandAI, dirancang untuk menghasilkan video berkualitas tinggi dengan memprediksi urutan potongan video secara autoregresif. Model ini dilatih untuk menghilangkan noise dari potongan video, memungkinkan pemodelan temporal kausal dan mendukung generasi streaming. MAGI-1 unggul dalam tugas gambar-ke-video (I2V), memberikan konsistensi temporal tinggi dan skalabilitas, berkat beberapa inovasi algoritmik dan tumpukan infrastruktur khusus.
Ikhtisar MAGI-1
Fitur | Deskripsi |
---|---|
Alat AI | MAGI-1 |
Kategori | Model Generasi Video Autoregresif |
Fungsi | Generasi Video |
Kecepatan Generasi | Generasi Video Efisiensi Tinggi |
Makalah Penelitian | Makalah Penelitian |
Situs Web Resmi | GitHub - SandAI-org/MAGI-1 |
MAGI-1 AI: Fitur Model
VAE berbasis Transformer
Menggunakan autoencoder variasional dengan arsitektur berbasis transformer, menawarkan kompresi spasial 8x dan temporal 4x. Ini menghasilkan waktu decoding yang cepat dan kualitas rekonstruksi yang kompetitif.
Algoritma Penghilangan Noise Auto-Regresif
Menghasilkan video potongan demi potongan, memungkinkan pemrosesan bersamaan hingga empat potongan untuk generasi video yang efisien. Setiap potongan (24 frame) dihilangkan noise-nya secara holistik, dan potongan berikutnya dimulai segera setelah potongan saat ini mencapai tingkat penghilangan noise tertentu.

Arsitektur Model Difusi
Dibangun di atas Diffusion Transformer, menggabungkan inovasi seperti Block-Causal Attention, Parallel Attention Block, QK-Norm dan GQA. Dilengkapi Sandwich Normalization di FFN, SwiGLU, dan Softcap Modulation untuk meningkatkan efisiensi pelatihan dan stabilitas pada skala besar.

Algoritma Distilasi
Menggunakan distilasi pintas untuk melatih model berbasis kecepatan tunggal yang mendukung anggaran inferensi variabel. Pendekatan ini memastikan inferensi yang efisien dengan kehilangan fidelitas minimal.
MAGI-1: Koleksi Model
Kami menyediakan bobot pra-terlatih untuk MAGI-1, termasuk model 24B dan 4.5B, serta model distilasi dan distilasi+kuantisasi yang sesuai. Tautan bobot model ditunjukkan dalam tabel.
Model | Tautan | Mesin yang Direkomendasikan |
---|---|---|
T5 | T5 | - |
MAGI-1-VAE | MAGI-1-VAE | - |
MAGI-1-24B | MAGI-1-24B | H100/H800 * 8 |
MAGI-1-24B-distill | MAGI-1-24B-distill | H100/H800 * 8 |
MAGI-1-24B-distill+fp8_quant | MAGI-1-24B-distill+fp8_quant | H100/H800 * 4 atau RTX 4090 * 8 |
MAGI-1-4.5B | MAGI-1-4.5B | RTX 4090 * 1 |
MAGI-1: Hasil Evaluasi
Evaluasi Manusia
MAGI-1 mengungguli model open-source lain seperti Wan-2.1, , Hailuo, dan HunyuanVideo dalam hal mengikuti instruksi dan kualitas gerakan, menjadikannya pesaing kuat untuk model komersial closed-source.

Evaluasi Fisik
MAGI-1 menunjukkan presisi superior dalam memprediksi perilaku fisik melalui kelanjutan video, secara signifikan mengungguli model yang ada.
Model | Phys. IQ Score ↑ | Spatial IoU ↑ | Spatio Temporal ↑ | Weighted Spatial IoU ↑ | MSE ↓ |
---|---|---|---|---|---|
V2V Models | |||||
Magi (V2V) | 56.02 | 0.367 | 0.270 | 0.304 | 0.005 |
VideoPoet (V2V) | 29.50 | 0.204 | 0.164 | 0.137 | 0.010 |
I2V Models | |||||
Magi (I2V) | 30.23 | 0.203 | 0.151 | 0.154 | 0.012 |
Kling1.6 (I2V) | 23.64 | 0.197 | 0.086 | 0.144 | 0.025 |
VideoPoet (I2V) | 20.30 | 0.141 | 0.126 | 0.087 | 0.012 |
Gen 3 (I2V) | 22.80 | 0.201 | 0.115 | 0.116 | 0.015 |
Wan2.1 (I2V) | 20.89 | 0.153 | 0.100 | 0.112 | 0.023 |
Sora (I2V) | 10.00 | 0.138 | 0.047 | 0.063 | 0.030 |
GroundTruth | 100.0 | 0.678 | 0.535 | 0.577 | 0.002 |
Mengapa Memilih MAGI-1
Rasakan generasi berikutnya dari pembuatan video AI dengan MAGI-1, di mana teknologi mutakhir bertemu dengan transparansi open-source.
Generasi Video Mulus
Kendalikan konten Anda dengan penyesuaian waktu yang akurat per frame, memastikan video Anda memenuhi spesifikasi kreatif yang tepat.
Kontrol Timeline yang Presisi
Hasilkan video dengan visual yang jelas, detail, dan gerakan yang mulus, memastikan pengalaman profesional dan menarik.
Kualitas Gerakan yang Ditingkatkan
Rasakan gerakan yang alami dengan pemrosesan gerakan canggih kami, menghilangkan transisi robotik untuk video yang benar-benar terlihat alami.
Inovasi Open-Source
Bergabunglah dengan ekosistem transparan di mana semua model dan penelitian tersedia secara gratis, mendorong perbaikan dan inovasi kolaboratif.
Pertanyaan yang Sering Diajukan Tentang MAGI-1
Apa itu MAGI-1?
MAGI-1 AI adalah model generasi video autoregresif canggih yang dikembangkan oleh SandAI, dirancang untuk menghasilkan video berkualitas tinggi dengan memprediksi urutan potongan video secara autoregresif. Model ini dilatih untuk menghilangkan noise dari potongan video, memungkinkan pemodelan temporal kausal dan mendukung generasi streaming.
Apa saja fitur utama MAGI-1?
Fitur model generasi video MAGI-1 AI mencakup VAE berbasis Transformer untuk decoding cepat dan kualitas rekonstruksi yang kompetitif, algoritma penghilangan noise auto-regresif untuk generasi video yang efisien, dan arsitektur model difusi yang meningkatkan efisiensi pelatihan dan stabilitas pada skala besar. Ini juga mendukung generasi yang dapat dikontrol melalui prompting per potongan, memungkinkan transisi adegan yang mulus, sintesis jangka panjang, dan kontrol berbasis teks yang detail.
Bagaimana MAGI-1 menangani generasi video?
MAGI-1 AI menghasilkan video potongan demi potongan alih-alih secara keseluruhan. Setiap potongan (24 frame) dihilangkan noise-nya secara holistik, dan generasi potongan berikutnya dimulai segera setelah potongan saat ini mencapai tingkat penghilangan noise tertentu. Desain pipeline ini memungkinkan pemrosesan bersamaan hingga empat potongan untuk generasi video yang efisien.
Apa saja varian model yang tersedia untuk MAGI-1?
Varian model untuk video MAGI-1 mencakup model 24B yang dioptimalkan untuk generasi video fidelitas tinggi dan model 4.5B yang cocok untuk lingkungan dengan sumber daya terbatas. Model yang didistilasi dan dikuantisasi juga tersedia untuk inferensi yang lebih cepat.
Bagaimana kinerja MAGI-1 dalam evaluasi?
MAGI-1 AI mencapai kinerja state-of-the-art di antara model open-source, unggul dalam mengikuti instruksi dan kualitas gerakan, memposisikannya sebagai pesaing potensial yang kuat untuk model komersial closed-source seperti Kling1.6. Ini juga menunjukkan presisi superior dalam memprediksi perilaku fisik melalui kelanjutan video, secara signifikan mengungguli semua model yang ada.
Bagaimana cara menjalankan MAGI-1?
MAGI-1 AI dapat dijalankan menggunakan Docker atau langsung dari kode sumber. Docker direkomendasikan untuk kemudahan pengaturan. Pengguna dapat mengontrol input dan output dengan memodifikasi parameter dalam skrip run.sh yang disediakan.
Apa lisensi untuk MAGI-1?
MAGI-1 dirilis di bawah Lisensi Apache 2.0.
Apa itu fitur 'Ekspansi Video Tak Terbatas' dari MAGI-1?
Fungsi 'Ekspansi Video Tak Terbatas' MAGI-1 memungkinkan perpanjangan konten video yang mulus, dikombinasikan dengan 'kontrol sumbu waktu tingkat detik,' memungkinkan pengguna untuk mencapai transisi adegan dan pengeditan yang halus melalui prompting potongan demi potongan, memenuhi kebutuhan produksi film dan penceritaan.
Apa signifikansi arsitektur autoregresif MAGI-1?
Berkat keunggulan alami dari arsitektur autoregresif, MAGI-1 mencapai presisi yang jauh lebih unggul dalam memprediksi perilaku fisik melalui kelanjutan video—secara signifikan mengungguli semua model yang ada.
Apa saja aplikasi MAGI-1?
MAGI-1 dirancang untuk berbagai aplikasi seperti pembuatan konten, pengembangan game, pasca-produksi film, dan pendidikan. Ini menawarkan alat yang kuat untuk generasi video yang dapat digunakan dalam berbagai skenario.