MAGI-1: Generacja Wideo z Autoregresją na Dużą Skalę

Wysoka WydajnośćLekkiW Pełni Open SourceArchitektura MoE do Generacji i Rozumienia Multimodalnego

Czym jest MAGI-1 AI?

MAGI-1 to zaawansowany model generacji wideo z autoregresją opracowany przez SandAI, zaprojektowany do generowania wysokiej jakości filmów poprzez przewidywanie sekwencji fragmentów wideo w sposób autoregresyjny. Model ten jest trenowany do usuwania szumów z fragmentów wideo, umożliwiając przyczynowe modelowanie czasowe i wspierając generację strumieniową. MAGI-1 wyróżnia się w zadaniach konwersji obrazu na wideo (I2V), zapewniając wysoką spójność czasową i skalowalność, dzięki kilku innowacjom algorytmicznym i dedykowanemu stosowi infrastruktury.

Przegląd MAGI-1

FunkcjaOpis
Narzędzie AIMAGI-1
KategoriaModel Generacji Wideo z Autoregresją
FunkcjaGeneracja Wideo
Szybkość GeneracjiWysoko Wydajna Generacja Wideo
Artykuł NaukowyArtykuł Naukowy
Oficjalna StronaGitHub - SandAI-org/MAGI-1

MAGI-1 AI: Funkcje Modelu

VAE Oparty na Transformerze

Wykorzystuje wariacyjny autoenkoder z architekturą opartą na transformerze, oferując 8-krotną kompresję przestrzenną i 4-krotną czasową. Skutkuje to szybkim czasem dekodowania i konkurencyjną jakością rekonstrukcji.

Algorytm Autoregresyjnego Usuwania Szumów

Generuje filmy fragment po fragmencie, umożliwiając równoległe przetwarzanie do czterech fragmentów dla efektywnej generacji wideo. Każdy fragment (24 klatki) jest całościowo oczyszczany z szumów, a generacja następnego fragmentu rozpoczyna się, gdy tylko bieżący osiągnie określony poziom oczyszczenia.

MAGI-1 Features

Architektura Modelu Dyfuzyjnego

Zbudowany na Transformerze Dyfuzyjnym, zawierający innowacje takie jak Block-Causal Attention, Parallel Attention Block, QK-Norm i GQA. Zawiera Normalizację Sandwich w FFN, SwiGLU i Modulację Softcap w celu zwiększenia efektywności treningu i stabilności w dużej skali.

MAGI-1 Features

Algorytm Destylacji

Wykorzystuje destylację skrótową do trenowania pojedynczego modelu opartego na prędkości, wspierającego zmienne budżety wnioskowania. To podejście zapewnia efektywne wnioskowanie przy minimalnej utracie wierności.

MAGI-1: Zoo Modeli

Udostępniamy wstępnie wytrenowane wagi dla MAGI-1, w tym modele 24B i 4.5B, a także odpowiadające im modele destylowane i destylowane+kwantyzowane. Linki do wag modeli są pokazane w tabeli.

ModelLinkZalecana Maszyna
T5T5-
MAGI-1-VAEMAGI-1-VAE-
MAGI-1-24BMAGI-1-24BH100/H800 * 8
MAGI-1-24B-distillMAGI-1-24B-distillH100/H800 * 8
MAGI-1-24B-distill+fp8_quantMAGI-1-24B-distill+fp8_quantH100/H800 * 4 lub RTX 4090 * 8
MAGI-1-4.5BMAGI-1-4.5BRTX 4090 * 1

MAGI-1: Wyniki Ewaluacji

Ewaluacja Ludzka

MAGI-1 przewyższa inne modele open source, takie jak Wan-2.1, , Hailuo i HunyuanVideo pod względem przestrzegania instrukcji i jakości ruchu, stając się silnym konkurentem dla komercyjnych modeli zamkniętych.

MAGI-1 Evaluation

Ewaluacja Fizyczna

MAGI-1 demonstruje doskonałą precyzję w przewidywaniu zachowań fizycznych poprzez kontynuację wideo, znacznie przewyższając istniejące modele.

ModelPhys. IQ Score Spatial IoU Spatio Temporal Weighted Spatial IoU MSE
V2V Models
Magi (V2V)56.020.3670.2700.3040.005
VideoPoet (V2V)29.500.2040.1640.1370.010
I2V Models
Magi (I2V)30.230.2030.1510.1540.012
Kling1.6 (I2V)23.640.1970.0860.1440.025
VideoPoet (I2V)20.300.1410.1260.0870.012
Gen 3 (I2V)22.800.2010.1150.1160.015
Wan2.1 (I2V)20.890.1530.1000.1120.023
Sora (I2V)10.000.1380.0470.0630.030
GroundTruth100.00.6780.5350.5770.002

Dlaczego Wybrać MAGI-1

Doświadcz następnej generacji tworzenia wideo AI z MAGI-1, gdzie najnowocześniejsza technologia spotyka się z przejrzystością open source.

Płynna Generacja Wideo

Przejmij kontrolę nad swoją treścią dzięki dokładnym regulacjom czasowym na poziomie klatek, zapewniając, że Twoje filmy spełniają dokładne specyfikacje kreatywne.

Precyzyjna Kontrola Osi Czasu

Twórz filmy z wyraźnymi, szczegółowymi efektami wizualnymi i płynnym ruchem, zapewniając profesjonalne i angażujące doświadczenie.

Ulepszona Jakość Ruchu

Doświadcz realistycznego ruchu dzięki naszemu zaawansowanemu przetwarzaniu ruchu, eliminując robotyczne przejścia dla prawdziwie naturalnie wyglądających filmów.

Innowacja Open Source

Dołącz do przejrzystego ekosystemu, gdzie wszystkie modele i badania są dostępne za darmo, wspierając współpracę w zakresie ulepszeń i innowacji.

Często Zadawane Pytania o MAGI-1

Czym jest MAGI-1?

MAGI-1 AI to zaawansowany model generacji wideo z autoregresją opracowany przez SandAI, zaprojektowany do generowania wysokiej jakości filmów poprzez przewidywanie sekwencji fragmentów wideo w sposób autoregresyjny. Model ten jest trenowany do usuwania szumów z fragmentów wideo, umożliwiając przyczynowe modelowanie czasowe i wspierając generację strumieniową.

Jakie są kluczowe funkcje MAGI-1?

Funkcje modelu generacji wideo MAGI-1 AI obejmują VAE oparty na Transformerze do szybkiego dekodowania i konkurencyjnej jakości rekonstrukcji, algorytm autoregresyjnego usuwania szumów do efektywnej generacji wideo oraz architekturę modelu dyfuzyjnego, która zwiększa efektywność treningu i stabilność w dużej skali. Wspiera również kontrolowaną generację poprzez podpowiedzi dla fragmentów, umożliwiając płynne przejścia między scenami, syntezę długoterminową i precyzyjną kontrolę opartą na tekście.

Jak MAGI-1 radzi sobie z generacją wideo?

MAGI-1 AI generuje filmy fragment po fragmencie, zamiast jako całość. Każdy fragment (24 klatki) jest całościowo oczyszczany z szumów, a generacja następnego fragmentu rozpoczyna się, gdy tylko bieżący osiągnie określony poziom oczyszczenia. Ta konstrukcja potoku umożliwia równoległe przetwarzanie do czterech fragmentów dla efektywnej generacji wideo.

Jakie warianty modelu są dostępne dla MAGI-1?

Warianty modelu dla wideo MAGI-1 obejmują model 24B zoptymalizowany pod kątem generacji wideo wysokiej wierności oraz model 4.5B odpowiedni dla środowisk o ograniczonych zasobach. Dostępne są również modele destylowane i kwantyzowane dla szybszego wnioskowania.

Jak MAGI-1 wypada w ewaluacjach?

MAGI-1 AI osiąga najnowocześniejszą wydajność wśród modeli open source, wyróżniając się w przestrzeganiu instrukcji i jakości ruchu, pozycjonując się jako silny potencjalny konkurent dla komercyjnych modeli zamkniętych, takich jak Kling1.6. Wykazuje również doskonałą precyzję w przewidywaniu zachowań fizycznych poprzez kontynuację wideo, znacznie przewyższając wszystkie istniejące modele.

Jak mogę uruchomić MAGI-1?

MAGI-1 AI można uruchomić za pomocą Dockera lub bezpośrednio z kodu źródłowego. Docker jest zalecany ze względu na łatwość konfiguracji. Użytkownicy mogą kontrolować wejście i wyjście, modyfikując parametry w dostarczonych skryptach run.sh.

Jaka jest licencja MAGI-1?

MAGI-1 jest wydany na licencji Apache License 2.0.

Czym jest funkcja 'Nieskończonego Rozszerzania Wideo' MAGI-1?

Funkcja 'Nieskończonego Rozszerzania Wideo' MAGI-1 umożliwia płynne rozszerzanie treści wideo, w połączeniu z 'kontrolą osi czasu na poziomie sekundy', pozwalając użytkownikom osiągać przejścia między scenami i wyrafinowaną edycję poprzez podpowiedzi dla fragmentów, spełniając potrzeby produkcji filmowej i opowiadania historii.

Jakie jest znaczenie architektury autoregresyjnej MAGI-1?

Dzięki naturalnym zaletom architektury autoregresyjnej, MAGI-1 osiąga znacznie lepszą precyzję w przewidywaniu zachowań fizycznych poprzez kontynuację wideo—znacznie przewyższając wszystkie istniejące modele.

Jakie są zastosowania MAGI-1?

MAGI-1 jest zaprojektowany do różnych zastosowań, takich jak tworzenie treści, rozwój gier, postprodukcja filmowa i edukacja. Oferuje potężne narzędzie do generacji wideo, które może być wykorzystane w wielu scenariuszach.