MAGI-1: Generasi Video Autoregresif dalam Skala Besar

Kinerja TinggiRinganSepenuhnya Open-SourceArsitektur MoE untuk Generasi & Pemahaman Multimodal

Apa itu MAGI-1 AI?

MAGI-1 adalah model generasi video autoregresif canggih yang dikembangkan oleh SandAI, dirancang untuk menghasilkan video berkualitas tinggi dengan memprediksi urutan potongan video secara autoregresif. Model ini dilatih untuk menghilangkan noise dari potongan video, memungkinkan pemodelan temporal kausal dan mendukung generasi streaming. MAGI-1 unggul dalam tugas gambar-ke-video (I2V), memberikan konsistensi temporal tinggi dan skalabilitas, berkat beberapa inovasi algoritmik dan tumpukan infrastruktur khusus.

Ikhtisar MAGI-1

FiturDeskripsi
Alat AIMAGI-1
KategoriModel Generasi Video Autoregresif
FungsiGenerasi Video
Kecepatan GenerasiGenerasi Video Efisiensi Tinggi
Makalah PenelitianMakalah Penelitian
Situs Web ResmiGitHub - SandAI-org/MAGI-1

MAGI-1 AI: Fitur Model

VAE berbasis Transformer

Menggunakan autoencoder variasional dengan arsitektur berbasis transformer, menawarkan kompresi spasial 8x dan temporal 4x. Ini menghasilkan waktu decoding yang cepat dan kualitas rekonstruksi yang kompetitif.

Algoritma Penghilangan Noise Auto-Regresif

Menghasilkan video potongan demi potongan, memungkinkan pemrosesan bersamaan hingga empat potongan untuk generasi video yang efisien. Setiap potongan (24 frame) dihilangkan noise-nya secara holistik, dan potongan berikutnya dimulai segera setelah potongan saat ini mencapai tingkat penghilangan noise tertentu.

MAGI-1 Features

Arsitektur Model Difusi

Dibangun di atas Diffusion Transformer, menggabungkan inovasi seperti Block-Causal Attention, Parallel Attention Block, QK-Norm dan GQA. Dilengkapi Sandwich Normalization di FFN, SwiGLU, dan Softcap Modulation untuk meningkatkan efisiensi pelatihan dan stabilitas pada skala besar.

MAGI-1 Features

Algoritma Distilasi

Menggunakan distilasi pintas untuk melatih model berbasis kecepatan tunggal yang mendukung anggaran inferensi variabel. Pendekatan ini memastikan inferensi yang efisien dengan kehilangan fidelitas minimal.

MAGI-1: Koleksi Model

Kami menyediakan bobot pra-terlatih untuk MAGI-1, termasuk model 24B dan 4.5B, serta model distilasi dan distilasi+kuantisasi yang sesuai. Tautan bobot model ditunjukkan dalam tabel.

ModelTautanMesin yang Direkomendasikan
T5T5-
MAGI-1-VAEMAGI-1-VAE-
MAGI-1-24BMAGI-1-24BH100/H800 * 8
MAGI-1-24B-distillMAGI-1-24B-distillH100/H800 * 8
MAGI-1-24B-distill+fp8_quantMAGI-1-24B-distill+fp8_quantH100/H800 * 4 atau RTX 4090 * 8
MAGI-1-4.5BMAGI-1-4.5BRTX 4090 * 1

MAGI-1: Hasil Evaluasi

Evaluasi Manusia

MAGI-1 mengungguli model open-source lain seperti Wan-2.1, , Hailuo, dan HunyuanVideo dalam hal mengikuti instruksi dan kualitas gerakan, menjadikannya pesaing kuat untuk model komersial closed-source.

MAGI-1 Evaluation

Evaluasi Fisik

MAGI-1 menunjukkan presisi superior dalam memprediksi perilaku fisik melalui kelanjutan video, secara signifikan mengungguli model yang ada.

ModelPhys. IQ Score Spatial IoU Spatio Temporal Weighted Spatial IoU MSE
V2V Models
Magi (V2V)56.020.3670.2700.3040.005
VideoPoet (V2V)29.500.2040.1640.1370.010
I2V Models
Magi (I2V)30.230.2030.1510.1540.012
Kling1.6 (I2V)23.640.1970.0860.1440.025
VideoPoet (I2V)20.300.1410.1260.0870.012
Gen 3 (I2V)22.800.2010.1150.1160.015
Wan2.1 (I2V)20.890.1530.1000.1120.023
Sora (I2V)10.000.1380.0470.0630.030
GroundTruth100.00.6780.5350.5770.002

Mengapa Memilih MAGI-1

Rasakan generasi berikutnya dari pembuatan video AI dengan MAGI-1, di mana teknologi mutakhir bertemu dengan transparansi open-source.

Generasi Video Mulus

Kendalikan konten Anda dengan penyesuaian waktu yang akurat per frame, memastikan video Anda memenuhi spesifikasi kreatif yang tepat.

Kontrol Timeline yang Presisi

Hasilkan video dengan visual yang jelas, detail, dan gerakan yang mulus, memastikan pengalaman profesional dan menarik.

Kualitas Gerakan yang Ditingkatkan

Rasakan gerakan yang alami dengan pemrosesan gerakan canggih kami, menghilangkan transisi robotik untuk video yang benar-benar terlihat alami.

Inovasi Open-Source

Bergabunglah dengan ekosistem transparan di mana semua model dan penelitian tersedia secara gratis, mendorong perbaikan dan inovasi kolaboratif.

Pertanyaan yang Sering Diajukan Tentang MAGI-1

Apa itu MAGI-1?

MAGI-1 AI adalah model generasi video autoregresif canggih yang dikembangkan oleh SandAI, dirancang untuk menghasilkan video berkualitas tinggi dengan memprediksi urutan potongan video secara autoregresif. Model ini dilatih untuk menghilangkan noise dari potongan video, memungkinkan pemodelan temporal kausal dan mendukung generasi streaming.

Apa saja fitur utama MAGI-1?

Fitur model generasi video MAGI-1 AI mencakup VAE berbasis Transformer untuk decoding cepat dan kualitas rekonstruksi yang kompetitif, algoritma penghilangan noise auto-regresif untuk generasi video yang efisien, dan arsitektur model difusi yang meningkatkan efisiensi pelatihan dan stabilitas pada skala besar. Ini juga mendukung generasi yang dapat dikontrol melalui prompting per potongan, memungkinkan transisi adegan yang mulus, sintesis jangka panjang, dan kontrol berbasis teks yang detail.

Bagaimana MAGI-1 menangani generasi video?

MAGI-1 AI menghasilkan video potongan demi potongan alih-alih secara keseluruhan. Setiap potongan (24 frame) dihilangkan noise-nya secara holistik, dan generasi potongan berikutnya dimulai segera setelah potongan saat ini mencapai tingkat penghilangan noise tertentu. Desain pipeline ini memungkinkan pemrosesan bersamaan hingga empat potongan untuk generasi video yang efisien.

Apa saja varian model yang tersedia untuk MAGI-1?

Varian model untuk video MAGI-1 mencakup model 24B yang dioptimalkan untuk generasi video fidelitas tinggi dan model 4.5B yang cocok untuk lingkungan dengan sumber daya terbatas. Model yang didistilasi dan dikuantisasi juga tersedia untuk inferensi yang lebih cepat.

Bagaimana kinerja MAGI-1 dalam evaluasi?

MAGI-1 AI mencapai kinerja state-of-the-art di antara model open-source, unggul dalam mengikuti instruksi dan kualitas gerakan, memposisikannya sebagai pesaing potensial yang kuat untuk model komersial closed-source seperti Kling1.6. Ini juga menunjukkan presisi superior dalam memprediksi perilaku fisik melalui kelanjutan video, secara signifikan mengungguli semua model yang ada.

Bagaimana cara menjalankan MAGI-1?

MAGI-1 AI dapat dijalankan menggunakan Docker atau langsung dari kode sumber. Docker direkomendasikan untuk kemudahan pengaturan. Pengguna dapat mengontrol input dan output dengan memodifikasi parameter dalam skrip run.sh yang disediakan.

Apa lisensi untuk MAGI-1?

MAGI-1 dirilis di bawah Lisensi Apache 2.0.

Apa itu fitur 'Ekspansi Video Tak Terbatas' dari MAGI-1?

Fungsi 'Ekspansi Video Tak Terbatas' MAGI-1 memungkinkan perpanjangan konten video yang mulus, dikombinasikan dengan 'kontrol sumbu waktu tingkat detik,' memungkinkan pengguna untuk mencapai transisi adegan dan pengeditan yang halus melalui prompting potongan demi potongan, memenuhi kebutuhan produksi film dan penceritaan.

Apa signifikansi arsitektur autoregresif MAGI-1?

Berkat keunggulan alami dari arsitektur autoregresif, MAGI-1 mencapai presisi yang jauh lebih unggul dalam memprediksi perilaku fisik melalui kelanjutan video—secara signifikan mengungguli semua model yang ada.

Apa saja aplikasi MAGI-1?

MAGI-1 dirancang untuk berbagai aplikasi seperti pembuatan konten, pengembangan game, pasca-produksi film, dan pendidikan. Ini menawarkan alat yang kuat untuk generasi video yang dapat digunakan dalam berbagai skenario.