MAGI-1: Penjanaan Video Autoregresi Berskala
Prestasi Tinggi·Ringan·Sumber Terbuka SepenuhnyaSeni Bina MoE untuk Penjanaan & Pemahaman Multimodal
Apakah itu MAGI-1 AI?
MAGI-1 ialah model penjanaan video autoregresi termaju yang dibangunkan oleh SandAI, direka untuk menjana video berkualiti tinggi dengan meramalkan urutan cebisan video secara autoregresi. Model ini dilatih untuk menyahbising cebisan video, membolehkan pemodelan temporal bersebab dan menyokong penjanaan penstriman. MAGI-1 cemerlang dalam tugas penukaran imej kepada video (I2V), menyediakan konsistensi temporal dan kebolehskalaan yang tinggi, berkat beberapa inovasi algoritma dan tindanan infrastruktur khusus.
Gambaran Keseluruhan MAGI-1
Ciri | Penerangan |
---|---|
Alat AI | MAGI-1 |
Kategori | Model Penjanaan Video Autoregresi |
Fungsi | Penjanaan Video |
Kelajuan Penjanaan | Penjanaan Video Kecekapan Tinggi |
Kertas Penyelidikan | Kertas Penyelidikan |
Laman Web Rasmi | GitHub - SandAI-org/MAGI-1 |
MAGI-1 AI: Ciri-ciri Model
VAE Berasaskan Transformer
Menggunakan autoencoder variasi dengan seni bina berasaskan transformer, menawarkan pemampatan 8x spatial dan 4x temporal. Ini menghasilkan masa penyahkodan yang pantas dan kualiti pembinaan semula yang kompetitif.
Algoritma Penyahbising Autoregresi
Menjana video secara cebisan demi cebisan, membolehkan pemprosesan serentak sehingga empat cebisan untuk penjanaan video yang cekap. Setiap cebisan (24 bingkai) disahbising secara holistik, dan cebisan seterusnya bermula sebaik sahaja cebisan semasa mencapai tahap penyahbising tertentu.

Seni Bina Model Peresapan
Dibina di atas Transformer Peresapan, menggabungkan inovasi seperti Perhatian Blok-Bersebab, Blok Perhatian Selari, QK-Norm dan GQA. Mempunyai ciri Normalisasi Sandwich dalam FFN, SwiGLU, dan Modulasi Softcap untuk meningkatkan kecekapan latihan dan kestabilan pada skala.

Algoritma Penyulingan
Menggunakan penyulingan pintasan untuk melatih model berasaskan halaju tunggal yang menyokong belanjawan inferens berubah-ubah. Pendekatan ini memastikan inferens yang cekap dengan kehilangan kesetiaan yang minimum.
MAGI-1: Zoo Model
Kami menyediakan pemberat pra-latihan untuk MAGI-1, termasuk model 24B dan 4.5B, serta model sulingan dan sulingan+kuant yang sepadan. Pautan pemberat model ditunjukkan dalam jadual.
Model | Pautan | Mesin yang Disyorkan |
---|---|---|
T5 | T5 | - |
MAGI-1-VAE | MAGI-1-VAE | - |
MAGI-1-24B | MAGI-1-24B | H100/H800 * 8 |
MAGI-1-24B-distill | MAGI-1-24B-distill | H100/H800 * 8 |
MAGI-1-24B-distill+fp8_quant | MAGI-1-24B-distill+fp8_quant | H100/H800 * 4 atau RTX 4090 * 8 |
MAGI-1-4.5B | MAGI-1-4.5B | RTX 4090 * 1 |
MAGI-1: Keputusan Penilaian
Penilaian Manusia
MAGI-1 mengatasi model sumber terbuka lain seperti Wan-2.1, , Hailuo, dan HunyuanVideo dari segi mengikuti arahan dan kualiti pergerakan, menjadikannya pesaing yang kuat kepada model komersial sumber tertutup.

Penilaian Fizikal
MAGI-1 menunjukkan ketepatan unggul dalam meramalkan tingkah laku fizikal melalui kesinambungan video, mengatasi model sedia ada dengan ketara.
Model | Phys. IQ Score ↑ | Spatial IoU ↑ | Spatio Temporal ↑ | Weighted Spatial IoU ↑ | MSE ↓ |
---|---|---|---|---|---|
V2V Models | |||||
Magi (V2V) | 56.02 | 0.367 | 0.270 | 0.304 | 0.005 |
VideoPoet (V2V) | 29.50 | 0.204 | 0.164 | 0.137 | 0.010 |
I2V Models | |||||
Magi (I2V) | 30.23 | 0.203 | 0.151 | 0.154 | 0.012 |
Kling1.6 (I2V) | 23.64 | 0.197 | 0.086 | 0.144 | 0.025 |
VideoPoet (I2V) | 20.30 | 0.141 | 0.126 | 0.087 | 0.012 |
Gen 3 (I2V) | 22.80 | 0.201 | 0.115 | 0.116 | 0.015 |
Wan2.1 (I2V) | 20.89 | 0.153 | 0.100 | 0.112 | 0.023 |
Sora (I2V) | 10.00 | 0.138 | 0.047 | 0.063 | 0.030 |
GroundTruth | 100.0 | 0.678 | 0.535 | 0.577 | 0.002 |
Mengapa Memilih MAGI-1
Alami generasi seterusnya penciptaan video AI dengan MAGI-1, di mana teknologi termaju bertemu dengan ketelusan sumber terbuka.
Penjanaan Video Lancar
Kuasai kandungan anda dengan pelarasan masa yang tepat mengikut bingkai, memastikan video anda memenuhi spesifikasi kreatif yang tepat.
Kawalan Garis Masa Tepat
Hasilkan video dengan visual yang jelas dan terperinci serta pergerakan yang lancar, memastikan pengalaman profesional dan menarik.
Kualiti Pergerakan Dipertingkatkan
Alami pergerakan seperti sebenar dengan pemprosesan pergerakan termaju kami, menghapuskan peralihan robotik untuk video yang kelihatan benar-benar semula jadi.
Inovasi Sumber Terbuka
Sertai ekosistem telus di mana semua model dan penyelidikan tersedia secara percuma, menggalakkan penambahbaikan dan inovasi secara kolaboratif.
Soalan Lazim Tentang MAGI-1
Apakah itu MAGI-1?
MAGI-1 AI ialah model penjanaan video autoregresi termaju yang dibangunkan oleh SandAI, direka untuk menjana video berkualiti tinggi dengan meramalkan urutan cebisan video secara autoregresi. Model ini dilatih untuk menyahbising cebisan video, membolehkan pemodelan temporal bersebab dan menyokong penjanaan penstriman.
Apakah ciri-ciri utama MAGI-1?
Ciri-ciri model penjanaan video MAGI-1 AI termasuk VAE berasaskan Transformer untuk penyahkodan pantas dan kualiti pembinaan semula yang kompetitif, algoritma penyahbising autoregresi untuk penjanaan video yang cekap, dan seni bina model peresapan yang meningkatkan kecekapan latihan dan kestabilan pada skala. Ia juga menyokong penjanaan terkawal melalui arahan mengikut cebisan, membolehkan peralihan adegan yang lancar, sintesis jangka panjang, dan kawalan berdasarkan teks yang terperinci.
Bagaimana MAGI-1 mengendalikan penjanaan video?
MAGI-1 AI menjana video secara cebisan demi cebisan dan bukannya secara keseluruhan. Setiap cebisan (24 bingkai) disahbising secara holistik, dan penjanaan cebisan seterusnya bermula sebaik sahaja cebisan semasa mencapai tahap penyahbising tertentu. Reka bentuk talian paip ini membolehkan pemprosesan serentak sehingga empat cebisan untuk penjanaan video yang cekap.
Apakah varian model yang tersedia untuk MAGI-1?
Varian model untuk video MAGI-1 termasuk model 24B yang dioptimumkan untuk penjanaan video kesetiaan tinggi dan model 4.5B yang sesuai untuk persekitaran yang terhad sumber. Model yang telah disuling dan dikuantumkan juga tersedia untuk inferens yang lebih pantas.
Bagaimana prestasi MAGI-1 dalam penilaian?
MAGI-1 AI mencapai prestasi terkini di kalangan model sumber terbuka, cemerlang dalam mengikuti arahan dan kualiti pergerakan, menjadikannya pesaing berpotensi yang kuat kepada model komersial sumber tertutup seperti Kling1.6. Ia juga menunjukkan ketepatan unggul dalam meramalkan tingkah laku fizikal melalui kesinambungan video, mengatasi semua model sedia ada dengan ketara.
Bagaimana saya boleh menjalankan MAGI-1?
MAGI-1 AI boleh dijalankan menggunakan Docker atau terus dari kod sumber. Docker disyorkan untuk kemudahan persediaan. Pengguna boleh mengawal input dan output dengan mengubah suai parameter dalam skrip run.sh yang disediakan.
Apakah lesen untuk MAGI-1?
MAGI-1 dikeluarkan di bawah Lesen Apache 2.0.
Apakah ciri 'Pengembangan Video Tak Terhingga' MAGI-1?
Fungsi 'Pengembangan Video Tak Terhingga' MAGI-1 membolehkan pengembangan kandungan video yang lancar, digabungkan dengan 'kawalan paksi masa tahap saat,' membolehkan pengguna mencapai peralihan adegan dan penyuntingan halus melalui arahan cebisan demi cebisan, memenuhi keperluan pengeluaran filem dan penceritaan.
Apakah kepentingan seni bina autoregresi MAGI-1?
Berkat kelebihan semula jadi seni bina autoregresi, MAGI-1 mencapai ketepatan yang jauh lebih unggul dalam meramalkan tingkah laku fizikal melalui kesinambungan video—mengatasi semua model sedia ada dengan ketara.
Apakah aplikasi MAGI-1?
MAGI-1 direka untuk pelbagai aplikasi seperti penciptaan kandungan, pembangunan permainan, pasca-produksi filem, dan pendidikan. Ia menawarkan alat yang berkuasa untuk penjanaan video yang boleh digunakan dalam pelbagai senario.