MAGI-1: Penjanaan Video Autoregresi Berskala

Prestasi TinggiRinganSumber Terbuka SepenuhnyaSeni Bina MoE untuk Penjanaan & Pemahaman Multimodal

Apakah itu MAGI-1 AI?

MAGI-1 ialah model penjanaan video autoregresi termaju yang dibangunkan oleh SandAI, direka untuk menjana video berkualiti tinggi dengan meramalkan urutan cebisan video secara autoregresi. Model ini dilatih untuk menyahbising cebisan video, membolehkan pemodelan temporal bersebab dan menyokong penjanaan penstriman. MAGI-1 cemerlang dalam tugas penukaran imej kepada video (I2V), menyediakan konsistensi temporal dan kebolehskalaan yang tinggi, berkat beberapa inovasi algoritma dan tindanan infrastruktur khusus.

Gambaran Keseluruhan MAGI-1

CiriPenerangan
Alat AIMAGI-1
KategoriModel Penjanaan Video Autoregresi
FungsiPenjanaan Video
Kelajuan PenjanaanPenjanaan Video Kecekapan Tinggi
Kertas PenyelidikanKertas Penyelidikan
Laman Web RasmiGitHub - SandAI-org/MAGI-1

MAGI-1 AI: Ciri-ciri Model

VAE Berasaskan Transformer

Menggunakan autoencoder variasi dengan seni bina berasaskan transformer, menawarkan pemampatan 8x spatial dan 4x temporal. Ini menghasilkan masa penyahkodan yang pantas dan kualiti pembinaan semula yang kompetitif.

Algoritma Penyahbising Autoregresi

Menjana video secara cebisan demi cebisan, membolehkan pemprosesan serentak sehingga empat cebisan untuk penjanaan video yang cekap. Setiap cebisan (24 bingkai) disahbising secara holistik, dan cebisan seterusnya bermula sebaik sahaja cebisan semasa mencapai tahap penyahbising tertentu.

MAGI-1 Features

Seni Bina Model Peresapan

Dibina di atas Transformer Peresapan, menggabungkan inovasi seperti Perhatian Blok-Bersebab, Blok Perhatian Selari, QK-Norm dan GQA. Mempunyai ciri Normalisasi Sandwich dalam FFN, SwiGLU, dan Modulasi Softcap untuk meningkatkan kecekapan latihan dan kestabilan pada skala.

MAGI-1 Features

Algoritma Penyulingan

Menggunakan penyulingan pintasan untuk melatih model berasaskan halaju tunggal yang menyokong belanjawan inferens berubah-ubah. Pendekatan ini memastikan inferens yang cekap dengan kehilangan kesetiaan yang minimum.

MAGI-1: Zoo Model

Kami menyediakan pemberat pra-latihan untuk MAGI-1, termasuk model 24B dan 4.5B, serta model sulingan dan sulingan+kuant yang sepadan. Pautan pemberat model ditunjukkan dalam jadual.

ModelPautanMesin yang Disyorkan
T5T5-
MAGI-1-VAEMAGI-1-VAE-
MAGI-1-24BMAGI-1-24BH100/H800 * 8
MAGI-1-24B-distillMAGI-1-24B-distillH100/H800 * 8
MAGI-1-24B-distill+fp8_quantMAGI-1-24B-distill+fp8_quantH100/H800 * 4 atau RTX 4090 * 8
MAGI-1-4.5BMAGI-1-4.5BRTX 4090 * 1

MAGI-1: Keputusan Penilaian

Penilaian Manusia

MAGI-1 mengatasi model sumber terbuka lain seperti Wan-2.1, , Hailuo, dan HunyuanVideo dari segi mengikuti arahan dan kualiti pergerakan, menjadikannya pesaing yang kuat kepada model komersial sumber tertutup.

MAGI-1 Evaluation

Penilaian Fizikal

MAGI-1 menunjukkan ketepatan unggul dalam meramalkan tingkah laku fizikal melalui kesinambungan video, mengatasi model sedia ada dengan ketara.

ModelPhys. IQ Score Spatial IoU Spatio Temporal Weighted Spatial IoU MSE
V2V Models
Magi (V2V)56.020.3670.2700.3040.005
VideoPoet (V2V)29.500.2040.1640.1370.010
I2V Models
Magi (I2V)30.230.2030.1510.1540.012
Kling1.6 (I2V)23.640.1970.0860.1440.025
VideoPoet (I2V)20.300.1410.1260.0870.012
Gen 3 (I2V)22.800.2010.1150.1160.015
Wan2.1 (I2V)20.890.1530.1000.1120.023
Sora (I2V)10.000.1380.0470.0630.030
GroundTruth100.00.6780.5350.5770.002

Mengapa Memilih MAGI-1

Alami generasi seterusnya penciptaan video AI dengan MAGI-1, di mana teknologi termaju bertemu dengan ketelusan sumber terbuka.

Penjanaan Video Lancar

Kuasai kandungan anda dengan pelarasan masa yang tepat mengikut bingkai, memastikan video anda memenuhi spesifikasi kreatif yang tepat.

Kawalan Garis Masa Tepat

Hasilkan video dengan visual yang jelas dan terperinci serta pergerakan yang lancar, memastikan pengalaman profesional dan menarik.

Kualiti Pergerakan Dipertingkatkan

Alami pergerakan seperti sebenar dengan pemprosesan pergerakan termaju kami, menghapuskan peralihan robotik untuk video yang kelihatan benar-benar semula jadi.

Inovasi Sumber Terbuka

Sertai ekosistem telus di mana semua model dan penyelidikan tersedia secara percuma, menggalakkan penambahbaikan dan inovasi secara kolaboratif.

Soalan Lazim Tentang MAGI-1

Apakah itu MAGI-1?

MAGI-1 AI ialah model penjanaan video autoregresi termaju yang dibangunkan oleh SandAI, direka untuk menjana video berkualiti tinggi dengan meramalkan urutan cebisan video secara autoregresi. Model ini dilatih untuk menyahbising cebisan video, membolehkan pemodelan temporal bersebab dan menyokong penjanaan penstriman.

Apakah ciri-ciri utama MAGI-1?

Ciri-ciri model penjanaan video MAGI-1 AI termasuk VAE berasaskan Transformer untuk penyahkodan pantas dan kualiti pembinaan semula yang kompetitif, algoritma penyahbising autoregresi untuk penjanaan video yang cekap, dan seni bina model peresapan yang meningkatkan kecekapan latihan dan kestabilan pada skala. Ia juga menyokong penjanaan terkawal melalui arahan mengikut cebisan, membolehkan peralihan adegan yang lancar, sintesis jangka panjang, dan kawalan berdasarkan teks yang terperinci.

Bagaimana MAGI-1 mengendalikan penjanaan video?

MAGI-1 AI menjana video secara cebisan demi cebisan dan bukannya secara keseluruhan. Setiap cebisan (24 bingkai) disahbising secara holistik, dan penjanaan cebisan seterusnya bermula sebaik sahaja cebisan semasa mencapai tahap penyahbising tertentu. Reka bentuk talian paip ini membolehkan pemprosesan serentak sehingga empat cebisan untuk penjanaan video yang cekap.

Apakah varian model yang tersedia untuk MAGI-1?

Varian model untuk video MAGI-1 termasuk model 24B yang dioptimumkan untuk penjanaan video kesetiaan tinggi dan model 4.5B yang sesuai untuk persekitaran yang terhad sumber. Model yang telah disuling dan dikuantumkan juga tersedia untuk inferens yang lebih pantas.

Bagaimana prestasi MAGI-1 dalam penilaian?

MAGI-1 AI mencapai prestasi terkini di kalangan model sumber terbuka, cemerlang dalam mengikuti arahan dan kualiti pergerakan, menjadikannya pesaing berpotensi yang kuat kepada model komersial sumber tertutup seperti Kling1.6. Ia juga menunjukkan ketepatan unggul dalam meramalkan tingkah laku fizikal melalui kesinambungan video, mengatasi semua model sedia ada dengan ketara.

Bagaimana saya boleh menjalankan MAGI-1?

MAGI-1 AI boleh dijalankan menggunakan Docker atau terus dari kod sumber. Docker disyorkan untuk kemudahan persediaan. Pengguna boleh mengawal input dan output dengan mengubah suai parameter dalam skrip run.sh yang disediakan.

Apakah lesen untuk MAGI-1?

MAGI-1 dikeluarkan di bawah Lesen Apache 2.0.

Apakah ciri 'Pengembangan Video Tak Terhingga' MAGI-1?

Fungsi 'Pengembangan Video Tak Terhingga' MAGI-1 membolehkan pengembangan kandungan video yang lancar, digabungkan dengan 'kawalan paksi masa tahap saat,' membolehkan pengguna mencapai peralihan adegan dan penyuntingan halus melalui arahan cebisan demi cebisan, memenuhi keperluan pengeluaran filem dan penceritaan.

Apakah kepentingan seni bina autoregresi MAGI-1?

Berkat kelebihan semula jadi seni bina autoregresi, MAGI-1 mencapai ketepatan yang jauh lebih unggul dalam meramalkan tingkah laku fizikal melalui kesinambungan video—mengatasi semua model sedia ada dengan ketara.

Apakah aplikasi MAGI-1?

MAGI-1 direka untuk pelbagai aplikasi seperti penciptaan kandungan, pembangunan permainan, pasca-produksi filem, dan pendidikan. Ia menawarkan alat yang berkuasa untuk penjanaan video yang boleh digunakan dalam pelbagai senario.