MAGI-1: Ölçeklenebilir Otoregressif Video Üretimi

Yüksek PerformansHafifTamamen Açık KaynakMultimodal Üretim ve Anlama için MoE Mimarisi

MAGI-1 AI Nedir?

MAGI-1, SandAI tarafından geliştirilen, video parçalarının dizilerini otoregressif bir şekilde tahmin ederek yüksek kaliteli videolar üretmek için tasarlanmış gelişmiş bir otoregressif video üretim modelidir. Bu model, video parçalarındaki gürültüyü gidermek için eğitilmiştir ve nedensel zamansal modellemeyi sağlayarak akış üretimini destekler. MAGI-1, görüntüden videoya (I2V) görevlerinde mükemmel performans gösterir, çeşitli algoritmik yenilikler ve özel bir altyapı yığını sayesinde yüksek zamansal tutarlılık ve ölçeklenebilirlik sağlar.

MAGI-1 Genel Bakış

ÖzellikAçıklama
AI AracıMAGI-1
KategoriOtoregressif Video Üretim Modeli
İşlevVideo Üretimi
Üretim HızıYüksek Verimli Video Üretimi
Araştırma MakalesiAraştırma Makalesi
Resmi Web SitesiGitHub - SandAI-org/MAGI-1

MAGI-1 AI: Model Özellikleri

Transformer Tabanlı VAE

Transformer tabanlı bir mimari ile değişkenli otokodlayıcı kullanır, 8x uzamsal ve 4x zamansal sıkıştırma sunar. Bu, hızlı kod çözme süreleri ve rekabetçi yeniden yapılandırma kalitesi sağlar.

Otoregressif Gürültü Giderme Algoritması

Videoları parça parça üretir, verimli video üretimi için dört parçaya kadar eşzamanlı işlemeye olanak tanır. Her parça (24 kare) bütünsel olarak gürültüden arındırılır ve mevcut parça belirli bir gürültü giderme seviyesine ulaşır ulaşmaz bir sonraki parça başlar.

MAGI-1 Features

Difüzyon Model Mimarisi

Difüzyon Transformer üzerine inşa edilmiş, Block-Causal Attention, Parallel Attention Block, QK-Norm ve GQA gibi yenilikleri içerir. Eğitim verimliliğini ve ölçekte stabiliteyi artırmak için FFN'de Sandwich Normalization, SwiGLU ve Softcap Modulation özelliklerini içerir.

MAGI-1 Features

Damıtma Algoritması

Değişken çıkarım bütçelerini destekleyen tek bir hız tabanlı model eğitmek için kısayol damıtması kullanır. Bu yaklaşım, doğrulukta minimal kayıpla verimli çıkarım sağlar.

MAGI-1: Model Hayvanat Bahçesi

MAGI-1 için önceden eğitilmiş ağırlıkları, 24B ve 4.5B modelleri ile bunlara karşılık gelen damıtma ve damıtma+nicemleme modellerini sağlıyoruz. Model ağırlık bağlantıları tabloda gösterilmektedir.

ModelBağlantıÖnerilen Makine
T5T5-
MAGI-1-VAEMAGI-1-VAE-
MAGI-1-24BMAGI-1-24BH100/H800 * 8
MAGI-1-24B-distillMAGI-1-24B-distillH100/H800 * 8
MAGI-1-24B-distill+fp8_quantMAGI-1-24B-distill+fp8_quantH100/H800 * 4 veya RTX 4090 * 8
MAGI-1-4.5BMAGI-1-4.5BRTX 4090 * 1

MAGI-1: Değerlendirme Sonuçları

İnsan Değerlendirmesi

MAGI-1, Wan-2.1, , Hailuo ve HunyuanVideo gibi diğer açık kaynak modellerden talimat takibi ve hareket kalitesi açısından daha iyi performans göstererek, kapalı kaynak ticari modellere güçlü bir rakip haline geliyor.

MAGI-1 Evaluation

Fiziksel Değerlendirme

MAGI-1, fiziksel davranışı tahmin etmede üstün hassasiyet göstererek, video devamı yoluyla mevcut modelleri önemli ölçüde geride bırakıyor.

ModelPhys. IQ Score Spatial IoU Spatio Temporal Weighted Spatial IoU MSE
V2V Models
Magi (V2V)56.020.3670.2700.3040.005
VideoPoet (V2V)29.500.2040.1640.1370.010
I2V Models
Magi (I2V)30.230.2030.1510.1540.012
Kling1.6 (I2V)23.640.1970.0860.1440.025
VideoPoet (I2V)20.300.1410.1260.0870.012
Gen 3 (I2V)22.800.2010.1150.1160.015
Wan2.1 (I2V)20.890.1530.1000.1120.023
Sora (I2V)10.000.1380.0470.0630.030
GroundTruth100.00.6780.5350.5770.002

Neden MAGI-1'i Seçmelisiniz

En son teknoloji ile açık kaynak şeffaflığının buluştuğu MAGI-1 ile AI video oluşturmanın yeni neslini deneyimleyin.

Kesintisiz Video Üretimi

Kare hassasiyetinde zamanlama ayarlarıyla içeriğinizin kontrolünü ele alın, videolarınızın tam yaratıcı özelliklere uygun olmasını sağlayın.

Hassas Zaman Çizelgesi Kontrolü

Net, detaylı görseller ve pürüzsüz hareketle videolar üreterek profesyonel ve etkileyici bir deneyim sağlayın.

Geliştirilmiş Hareket Kalitesi

Gelişmiş hareket işlememizle gerçekçi hareketler deneyimleyin, gerçekten doğal görünen videolar için robotik geçişleri ortadan kaldırın.

Açık Kaynak İnovasyon

Tüm modellerin ve araştırmaların ücretsiz olarak sunulduğu şeffaf bir ekosisteme katılın, işbirlikçi gelişmeyi ve yeniliği teşvik edin.

MAGI-1 Hakkında Sık Sorulan Sorular

MAGI-1 nedir?

MAGI-1 AI, SandAI tarafından geliştirilen, video parçalarının dizilerini otoregressif bir şekilde tahmin ederek yüksek kaliteli videolar üretmek için tasarlanmış gelişmiş bir otoregressif video üretim modelidir. Bu model, video parçalarındaki gürültüyü gidermek için eğitilmiştir ve nedensel zamansal modellemeyi sağlayarak akış üretimini destekler.

MAGI-1'in temel özellikleri nelerdir?

MAGI-1 AI video üretim modeli özellikleri arasında hızlı kod çözme ve rekabetçi yeniden yapılandırma kalitesi için Transformer tabanlı VAE, verimli video üretimi için otoregressif gürültü giderme algoritması ve ölçekte eğitim verimliliğini ve stabiliteyi artıran bir difüzyon model mimarisi bulunur. Ayrıca parça bazlı yönlendirme yoluyla kontrol edilebilir üretimi destekleyerek, pürüzsüz sahne geçişleri, uzun vadeli sentez ve ince taneli metin tabanlı kontrol sağlar.

MAGI-1 video üretimini nasıl yönetiyor?

MAGI-1 AI, videoları bir bütün olarak değil, parça parça üretir. Her parça (24 kare) bütünsel olarak gürültüden arındırılır ve mevcut parça belirli bir gürültü giderme seviyesine ulaşır ulaşmaz bir sonraki parçanın üretimi başlar. Bu işlem hattı tasarımı, verimli video üretimi için dört parçaya kadar eşzamanlı işlemeye olanak tanır.

MAGI-1 için hangi model varyantları mevcut?

MAGI-1 video için model varyantları, yüksek kaliteli video üretimi için optimize edilmiş 24B modeli ve kaynak kısıtlı ortamlar için uygun 4.5B modelini içerir. Daha hızlı çıkarım için damıtılmış ve nicelenmiş modeller de mevcuttur.

MAGI-1 değerlendirmelerde nasıl performans gösteriyor?

MAGI-1 AI, açık kaynak modeller arasında en son teknoloji performansı elde ediyor, talimat takibi ve hareket kalitesinde öne çıkarak, Kling1.6 gibi kapalı kaynak ticari modellere güçlü bir potansiyel rakip olarak konumlanıyor. Ayrıca video devamı yoluyla fiziksel davranışı tahmin etmede üstün hassasiyet göstererek, mevcut tüm modelleri önemli ölçüde geride bırakıyor.

MAGI-1'i nasıl çalıştırabilirim?

MAGI-1 AI, Docker kullanılarak veya doğrudan kaynak kodundan çalıştırılabilir. Kurulum kolaylığı için Docker önerilir. Kullanıcılar, sağlanan run.sh betiklerindeki parametreleri değiştirerek girdi ve çıktıyı kontrol edebilir.

MAGI-1'in lisansı nedir?

MAGI-1, Apache License 2.0 altında yayınlanmıştır.

MAGI-1'in 'Sonsuz Video Genişletme' özelliği nedir?

MAGI-1'in 'Sonsuz Video Genişletme' işlevi, 'saniye seviyesinde zaman ekseni kontrolü' ile birleştiğinde video içeriğinin kesintisiz genişletilmesine olanak tanır ve kullanıcıların parça parça yönlendirme yoluyla sahne geçişleri ve hassas düzenleme yapmasını sağlayarak film üretimi ve hikaye anlatımı ihtiyaçlarını karşılar.

MAGI-1'in otoregressif mimarisinin önemi nedir?

Otoregressif mimarinin doğal avantajları sayesinde MAGI-1, video devamı yoluyla fiziksel davranışı tahmin etmede çok daha üstün hassasiyet elde ediyor—mevcut tüm modelleri önemli ölçüde geride bırakıyor.

MAGI-1'in uygulama alanları nelerdir?

MAGI-1, içerik oluşturma, oyun geliştirme, film post-prodüksiyonu ve eğitim gibi çeşitli uygulamalar için tasarlanmıştır. Birden çok senaryoda kullanılabilen güçlü bir video üretim aracı sunar.