Yeni

MAGI-1: Ölçeklenebilir Otoregressif Video Üretimi

Yüksek Performans·Hafif·Tamamen Açık KaynakMultimodal Üretim ve Anlama için MoE Mimarisi

MAGI-1 AI Nedir?

MAGI-1, SandAI tarafından geliştirilen, video parçalarının dizilerini otoregressif bir şekilde tahmin ederek yüksek kaliteli videolar üretmek için tasarlanmış gelişmiş bir otoregressif video üretim modelidir. Bu model, video parçalarındaki gürültüyü gidermek için eğitilmiştir ve nedensel zamansal modellemeyi sağlayarak akış üretimini destekler. MAGI-1, görüntüden videoya (I2V) görevlerinde mükemmel performans gösterir, çeşitli algoritmik yenilikler ve özel bir altyapı yığını sayesinde yüksek zamansal tutarlılık ve ölçeklenebilirlik sağlar.

MAGI-1 Genel Bakış

Özellik	Açıklama
AI Aracı	MAGI-1
Kategori	Otoregressif Video Üretim Modeli
İşlev	Video Üretimi
Üretim Hızı	Yüksek Verimli Video Üretimi
Araştırma Makalesi	Araştırma Makalesi
Resmi Web Sitesi	GitHub - SandAI-org/MAGI-1

MAGI-1 AI: Model Özellikleri

Transformer Tabanlı VAE

Transformer tabanlı bir mimari ile değişkenli otokodlayıcı kullanır, 8x uzamsal ve 4x zamansal sıkıştırma sunar. Bu, hızlı kod çözme süreleri ve rekabetçi yeniden yapılandırma kalitesi sağlar.

Otoregressif Gürültü Giderme Algoritması

Videoları parça parça üretir, verimli video üretimi için dört parçaya kadar eşzamanlı işlemeye olanak tanır. Her parça (24 kare) bütünsel olarak gürültüden arındırılır ve mevcut parça belirli bir gürültü giderme seviyesine ulaşır ulaşmaz bir sonraki parça başlar.

Difüzyon Model Mimarisi

Difüzyon Transformer üzerine inşa edilmiş, Block-Causal Attention, Parallel Attention Block, QK-Norm ve GQA gibi yenilikleri içerir. Eğitim verimliliğini ve ölçekte stabiliteyi artırmak için FFN'de Sandwich Normalization, SwiGLU ve Softcap Modulation özelliklerini içerir.

Damıtma Algoritması

Değişken çıkarım bütçelerini destekleyen tek bir hız tabanlı model eğitmek için kısayol damıtması kullanır. Bu yaklaşım, doğrulukta minimal kayıpla verimli çıkarım sağlar.

MAGI-1: Model Hayvanat Bahçesi

MAGI-1 için önceden eğitilmiş ağırlıkları, 24B ve 4.5B modelleri ile bunlara karşılık gelen damıtma ve damıtma+nicemleme modellerini sağlıyoruz. Model ağırlık bağlantıları tabloda gösterilmektedir.

Model	Bağlantı	Önerilen Makine
T5	T5	-
MAGI-1-VAE	MAGI-1-VAE	-
MAGI-1-24B	MAGI-1-24B	H100/H800 * 8
MAGI-1-24B-distill	MAGI-1-24B-distill	H100/H800 * 8
MAGI-1-24B-distill+fp8_quant	MAGI-1-24B-distill+fp8_quant	H100/H800 * 4 veya RTX 4090 * 8
MAGI-1-4.5B	MAGI-1-4.5B	RTX 4090 * 1

MAGI-1: Değerlendirme Sonuçları

İnsan Değerlendirmesi

MAGI-1, Wan-2.1, , Hailuo ve HunyuanVideo gibi diğer açık kaynak modellerden talimat takibi ve hareket kalitesi açısından daha iyi performans göstererek, kapalı kaynak ticari modellere güçlü bir rakip haline geliyor.

Fiziksel Değerlendirme

MAGI-1, fiziksel davranışı tahmin etmede üstün hassasiyet göstererek, video devamı yoluyla mevcut modelleri önemli ölçüde geride bırakıyor.

Model	Phys. IQ Score ↑	Spatial IoU ↑	Spatio Temporal ↑	Weighted Spatial IoU ↑	MSE ↓
V2V Models
Magi (V2V)	56.02	0.367	0.270	0.304	0.005
VideoPoet (V2V)	29.50	0.204	0.164	0.137	0.010
I2V Models
Magi (I2V)	30.23	0.203	0.151	0.154	0.012
Kling1.6 (I2V)	23.64	0.197	0.086	0.144	0.025
VideoPoet (I2V)	20.30	0.141	0.126	0.087	0.012
Gen 3 (I2V)	22.80	0.201	0.115	0.116	0.015
Wan2.1 (I2V)	20.89	0.153	0.100	0.112	0.023
Sora (I2V)	10.00	0.138	0.047	0.063	0.030
GroundTruth	100.0	0.678	0.535	0.577	0.002

Neden MAGI-1'i Seçmelisiniz

En son teknoloji ile açık kaynak şeffaflığının buluştuğu MAGI-1 ile AI video oluşturmanın yeni neslini deneyimleyin.

Kesintisiz Video Üretimi

Kare hassasiyetinde zamanlama ayarlarıyla içeriğinizin kontrolünü ele alın, videolarınızın tam yaratıcı özelliklere uygun olmasını sağlayın.

Hassas Zaman Çizelgesi Kontrolü

Net, detaylı görseller ve pürüzsüz hareketle videolar üreterek profesyonel ve etkileyici bir deneyim sağlayın.

Geliştirilmiş Hareket Kalitesi

Gelişmiş hareket işlememizle gerçekçi hareketler deneyimleyin, gerçekten doğal görünen videolar için robotik geçişleri ortadan kaldırın.

Açık Kaynak İnovasyon

Tüm modellerin ve araştırmaların ücretsiz olarak sunulduğu şeffaf bir ekosisteme katılın, işbirlikçi gelişmeyi ve yeniliği teşvik edin.

MAGI-1 Hakkında Sık Sorulan Sorular

MAGI-1 nedir?

MAGI-1 AI, SandAI tarafından geliştirilen, video parçalarının dizilerini otoregressif bir şekilde tahmin ederek yüksek kaliteli videolar üretmek için tasarlanmış gelişmiş bir otoregressif video üretim modelidir. Bu model, video parçalarındaki gürültüyü gidermek için eğitilmiştir ve nedensel zamansal modellemeyi sağlayarak akış üretimini destekler.

MAGI-1'in temel özellikleri nelerdir?

MAGI-1 AI video üretim modeli özellikleri arasında hızlı kod çözme ve rekabetçi yeniden yapılandırma kalitesi için Transformer tabanlı VAE, verimli video üretimi için otoregressif gürültü giderme algoritması ve ölçekte eğitim verimliliğini ve stabiliteyi artıran bir difüzyon model mimarisi bulunur. Ayrıca parça bazlı yönlendirme yoluyla kontrol edilebilir üretimi destekleyerek, pürüzsüz sahne geçişleri, uzun vadeli sentez ve ince taneli metin tabanlı kontrol sağlar.

MAGI-1 video üretimini nasıl yönetiyor?

MAGI-1 AI, videoları bir bütün olarak değil, parça parça üretir. Her parça (24 kare) bütünsel olarak gürültüden arındırılır ve mevcut parça belirli bir gürültü giderme seviyesine ulaşır ulaşmaz bir sonraki parçanın üretimi başlar. Bu işlem hattı tasarımı, verimli video üretimi için dört parçaya kadar eşzamanlı işlemeye olanak tanır.

MAGI-1 için hangi model varyantları mevcut?

MAGI-1 video için model varyantları, yüksek kaliteli video üretimi için optimize edilmiş 24B modeli ve kaynak kısıtlı ortamlar için uygun 4.5B modelini içerir. Daha hızlı çıkarım için damıtılmış ve nicelenmiş modeller de mevcuttur.

MAGI-1 değerlendirmelerde nasıl performans gösteriyor?

MAGI-1 AI, açık kaynak modeller arasında en son teknoloji performansı elde ediyor, talimat takibi ve hareket kalitesinde öne çıkarak, Kling1.6 gibi kapalı kaynak ticari modellere güçlü bir potansiyel rakip olarak konumlanıyor. Ayrıca video devamı yoluyla fiziksel davranışı tahmin etmede üstün hassasiyet göstererek, mevcut tüm modelleri önemli ölçüde geride bırakıyor.

MAGI-1'i nasıl çalıştırabilirim?

MAGI-1 AI, Docker kullanılarak veya doğrudan kaynak kodundan çalıştırılabilir. Kurulum kolaylığı için Docker önerilir. Kullanıcılar, sağlanan run.sh betiklerindeki parametreleri değiştirerek girdi ve çıktıyı kontrol edebilir.

MAGI-1'in lisansı nedir?

MAGI-1, Apache License 2.0 altında yayınlanmıştır.

MAGI-1'in 'Sonsuz Video Genişletme' özelliği nedir?

MAGI-1'in 'Sonsuz Video Genişletme' işlevi, 'saniye seviyesinde zaman ekseni kontrolü' ile birleştiğinde video içeriğinin kesintisiz genişletilmesine olanak tanır ve kullanıcıların parça parça yönlendirme yoluyla sahne geçişleri ve hassas düzenleme yapmasını sağlayarak film üretimi ve hikaye anlatımı ihtiyaçlarını karşılar.

MAGI-1'in otoregressif mimarisinin önemi nedir?

Otoregressif mimarinin doğal avantajları sayesinde MAGI-1, video devamı yoluyla fiziksel davranışı tahmin etmede çok daha üstün hassasiyet elde ediyor—mevcut tüm modelleri önemli ölçüde geride bırakıyor.

MAGI-1'in uygulama alanları nelerdir?

MAGI-1, içerik oluşturma, oyun geliştirme, film post-prodüksiyonu ve eğitim gibi çeşitli uygulamalar için tasarlanmıştır. Birden çok senaryoda kullanılabilen güçlü bir video üretim aracı sunar.