MAGI-1: Ölçeklenebilir Otoregressif Video Üretimi
Yüksek Performans·Hafif·Tamamen Açık KaynakMultimodal Üretim ve Anlama için MoE Mimarisi
MAGI-1 AI Nedir?
MAGI-1, SandAI tarafından geliştirilen, video parçalarının dizilerini otoregressif bir şekilde tahmin ederek yüksek kaliteli videolar üretmek için tasarlanmış gelişmiş bir otoregressif video üretim modelidir. Bu model, video parçalarındaki gürültüyü gidermek için eğitilmiştir ve nedensel zamansal modellemeyi sağlayarak akış üretimini destekler. MAGI-1, görüntüden videoya (I2V) görevlerinde mükemmel performans gösterir, çeşitli algoritmik yenilikler ve özel bir altyapı yığını sayesinde yüksek zamansal tutarlılık ve ölçeklenebilirlik sağlar.
MAGI-1 Genel Bakış
Özellik | Açıklama |
---|---|
AI Aracı | MAGI-1 |
Kategori | Otoregressif Video Üretim Modeli |
İşlev | Video Üretimi |
Üretim Hızı | Yüksek Verimli Video Üretimi |
Araştırma Makalesi | Araştırma Makalesi |
Resmi Web Sitesi | GitHub - SandAI-org/MAGI-1 |
MAGI-1 AI: Model Özellikleri
Transformer Tabanlı VAE
Transformer tabanlı bir mimari ile değişkenli otokodlayıcı kullanır, 8x uzamsal ve 4x zamansal sıkıştırma sunar. Bu, hızlı kod çözme süreleri ve rekabetçi yeniden yapılandırma kalitesi sağlar.
Otoregressif Gürültü Giderme Algoritması
Videoları parça parça üretir, verimli video üretimi için dört parçaya kadar eşzamanlı işlemeye olanak tanır. Her parça (24 kare) bütünsel olarak gürültüden arındırılır ve mevcut parça belirli bir gürültü giderme seviyesine ulaşır ulaşmaz bir sonraki parça başlar.

Difüzyon Model Mimarisi
Difüzyon Transformer üzerine inşa edilmiş, Block-Causal Attention, Parallel Attention Block, QK-Norm ve GQA gibi yenilikleri içerir. Eğitim verimliliğini ve ölçekte stabiliteyi artırmak için FFN'de Sandwich Normalization, SwiGLU ve Softcap Modulation özelliklerini içerir.

Damıtma Algoritması
Değişken çıkarım bütçelerini destekleyen tek bir hız tabanlı model eğitmek için kısayol damıtması kullanır. Bu yaklaşım, doğrulukta minimal kayıpla verimli çıkarım sağlar.
MAGI-1: Model Hayvanat Bahçesi
MAGI-1 için önceden eğitilmiş ağırlıkları, 24B ve 4.5B modelleri ile bunlara karşılık gelen damıtma ve damıtma+nicemleme modellerini sağlıyoruz. Model ağırlık bağlantıları tabloda gösterilmektedir.
Model | Bağlantı | Önerilen Makine |
---|---|---|
T5 | T5 | - |
MAGI-1-VAE | MAGI-1-VAE | - |
MAGI-1-24B | MAGI-1-24B | H100/H800 * 8 |
MAGI-1-24B-distill | MAGI-1-24B-distill | H100/H800 * 8 |
MAGI-1-24B-distill+fp8_quant | MAGI-1-24B-distill+fp8_quant | H100/H800 * 4 veya RTX 4090 * 8 |
MAGI-1-4.5B | MAGI-1-4.5B | RTX 4090 * 1 |
MAGI-1: Değerlendirme Sonuçları
İnsan Değerlendirmesi
MAGI-1, Wan-2.1, , Hailuo ve HunyuanVideo gibi diğer açık kaynak modellerden talimat takibi ve hareket kalitesi açısından daha iyi performans göstererek, kapalı kaynak ticari modellere güçlü bir rakip haline geliyor.

Fiziksel Değerlendirme
MAGI-1, fiziksel davranışı tahmin etmede üstün hassasiyet göstererek, video devamı yoluyla mevcut modelleri önemli ölçüde geride bırakıyor.
Model | Phys. IQ Score ↑ | Spatial IoU ↑ | Spatio Temporal ↑ | Weighted Spatial IoU ↑ | MSE ↓ |
---|---|---|---|---|---|
V2V Models | |||||
Magi (V2V) | 56.02 | 0.367 | 0.270 | 0.304 | 0.005 |
VideoPoet (V2V) | 29.50 | 0.204 | 0.164 | 0.137 | 0.010 |
I2V Models | |||||
Magi (I2V) | 30.23 | 0.203 | 0.151 | 0.154 | 0.012 |
Kling1.6 (I2V) | 23.64 | 0.197 | 0.086 | 0.144 | 0.025 |
VideoPoet (I2V) | 20.30 | 0.141 | 0.126 | 0.087 | 0.012 |
Gen 3 (I2V) | 22.80 | 0.201 | 0.115 | 0.116 | 0.015 |
Wan2.1 (I2V) | 20.89 | 0.153 | 0.100 | 0.112 | 0.023 |
Sora (I2V) | 10.00 | 0.138 | 0.047 | 0.063 | 0.030 |
GroundTruth | 100.0 | 0.678 | 0.535 | 0.577 | 0.002 |
Neden MAGI-1'i Seçmelisiniz
En son teknoloji ile açık kaynak şeffaflığının buluştuğu MAGI-1 ile AI video oluşturmanın yeni neslini deneyimleyin.
Kesintisiz Video Üretimi
Kare hassasiyetinde zamanlama ayarlarıyla içeriğinizin kontrolünü ele alın, videolarınızın tam yaratıcı özelliklere uygun olmasını sağlayın.
Hassas Zaman Çizelgesi Kontrolü
Net, detaylı görseller ve pürüzsüz hareketle videolar üreterek profesyonel ve etkileyici bir deneyim sağlayın.
Geliştirilmiş Hareket Kalitesi
Gelişmiş hareket işlememizle gerçekçi hareketler deneyimleyin, gerçekten doğal görünen videolar için robotik geçişleri ortadan kaldırın.
Açık Kaynak İnovasyon
Tüm modellerin ve araştırmaların ücretsiz olarak sunulduğu şeffaf bir ekosisteme katılın, işbirlikçi gelişmeyi ve yeniliği teşvik edin.
MAGI-1 Hakkında Sık Sorulan Sorular
MAGI-1 nedir?
MAGI-1 AI, SandAI tarafından geliştirilen, video parçalarının dizilerini otoregressif bir şekilde tahmin ederek yüksek kaliteli videolar üretmek için tasarlanmış gelişmiş bir otoregressif video üretim modelidir. Bu model, video parçalarındaki gürültüyü gidermek için eğitilmiştir ve nedensel zamansal modellemeyi sağlayarak akış üretimini destekler.
MAGI-1'in temel özellikleri nelerdir?
MAGI-1 AI video üretim modeli özellikleri arasında hızlı kod çözme ve rekabetçi yeniden yapılandırma kalitesi için Transformer tabanlı VAE, verimli video üretimi için otoregressif gürültü giderme algoritması ve ölçekte eğitim verimliliğini ve stabiliteyi artıran bir difüzyon model mimarisi bulunur. Ayrıca parça bazlı yönlendirme yoluyla kontrol edilebilir üretimi destekleyerek, pürüzsüz sahne geçişleri, uzun vadeli sentez ve ince taneli metin tabanlı kontrol sağlar.
MAGI-1 video üretimini nasıl yönetiyor?
MAGI-1 AI, videoları bir bütün olarak değil, parça parça üretir. Her parça (24 kare) bütünsel olarak gürültüden arındırılır ve mevcut parça belirli bir gürültü giderme seviyesine ulaşır ulaşmaz bir sonraki parçanın üretimi başlar. Bu işlem hattı tasarımı, verimli video üretimi için dört parçaya kadar eşzamanlı işlemeye olanak tanır.
MAGI-1 için hangi model varyantları mevcut?
MAGI-1 video için model varyantları, yüksek kaliteli video üretimi için optimize edilmiş 24B modeli ve kaynak kısıtlı ortamlar için uygun 4.5B modelini içerir. Daha hızlı çıkarım için damıtılmış ve nicelenmiş modeller de mevcuttur.
MAGI-1 değerlendirmelerde nasıl performans gösteriyor?
MAGI-1 AI, açık kaynak modeller arasında en son teknoloji performansı elde ediyor, talimat takibi ve hareket kalitesinde öne çıkarak, Kling1.6 gibi kapalı kaynak ticari modellere güçlü bir potansiyel rakip olarak konumlanıyor. Ayrıca video devamı yoluyla fiziksel davranışı tahmin etmede üstün hassasiyet göstererek, mevcut tüm modelleri önemli ölçüde geride bırakıyor.
MAGI-1'i nasıl çalıştırabilirim?
MAGI-1 AI, Docker kullanılarak veya doğrudan kaynak kodundan çalıştırılabilir. Kurulum kolaylığı için Docker önerilir. Kullanıcılar, sağlanan run.sh betiklerindeki parametreleri değiştirerek girdi ve çıktıyı kontrol edebilir.
MAGI-1'in lisansı nedir?
MAGI-1, Apache License 2.0 altında yayınlanmıştır.
MAGI-1'in 'Sonsuz Video Genişletme' özelliği nedir?
MAGI-1'in 'Sonsuz Video Genişletme' işlevi, 'saniye seviyesinde zaman ekseni kontrolü' ile birleştiğinde video içeriğinin kesintisiz genişletilmesine olanak tanır ve kullanıcıların parça parça yönlendirme yoluyla sahne geçişleri ve hassas düzenleme yapmasını sağlayarak film üretimi ve hikaye anlatımı ihtiyaçlarını karşılar.
MAGI-1'in otoregressif mimarisinin önemi nedir?
Otoregressif mimarinin doğal avantajları sayesinde MAGI-1, video devamı yoluyla fiziksel davranışı tahmin etmede çok daha üstün hassasiyet elde ediyor—mevcut tüm modelleri önemli ölçüde geride bırakıyor.
MAGI-1'in uygulama alanları nelerdir?
MAGI-1, içerik oluşturma, oyun geliştirme, film post-prodüksiyonu ve eğitim gibi çeşitli uygulamalar için tasarlanmıştır. Birden çok senaryoda kullanılabilen güçlü bir video üretim aracı sunar.