MAGI-1: 大規模自己回帰型動画生成

高性能軽量完全オープンソースマルチモーダル生成と理解のためのMoEアーキテクチャ

MAGI-1 AIとは?

MAGI-1は、 SandAIによって開発された先進的な自己回帰型動画生成モデルで、動画チャンクのシーケンスを自己回帰的に予測することで高品質な動画を生成するように設計されています。このモデルは動画チャンクのノイズ除去を学習し、因果的な時間モデリングとストリーミング生成をサポートします。 MAGI-1は画像から動画への変換(I2V)タスクで優れた性能を発揮し、複数のアルゴリズム革新と専用インフラストラクチャスタックにより、高い時間的一貫性とスケーラビリティを提供します。

MAGI-1の概要

特徴説明
AIツールMAGI-1
カテゴリー自己回帰型動画生成モデル
機能動画生成
生成速度高効率動画生成
研究論文研究論文
公式ウェブサイトGitHub - SandAI-org/MAGI-1

MAGI-1 AI: モデルの特徴

Transformerベースのバリエーショナルオートエンコーダー

Transformerベースのアーキテクチャを持つバリエーショナルオートエンコーダーを使用し、空間的に8倍、時間的に4倍の圧縮を実現。これにより、高速なデコード時間と競争力のある再構成品質を実現しています。

自己回帰型ノイズ除去アルゴリズム

動画をチャンクごとに生成し、最大4つのチャンクの同時処理を可能にすることで、効率的な動画生成を実現します。各チャンク(24フレーム)は全体的にノイズ除去され、現在のチャンクが一定のノイズ除去レベルに達すると次のチャンクの生成が開始されます。

MAGI-1 Features

拡散モデルアーキテクチャ

Diffusion Transformerをベースに、Block-Causal Attention、Parallel Attention Block、QK-Norm、GQAなどの革新を組み込んでいます。FFNでのSandwich Normalization、SwiGLU、Softcap Modulationを特徴とし、大規模なトレーニング効率と安定性を向上させています。

MAGI-1 Features

蒸留アルゴリズム

ショートカット蒸留を使用して、可変推論予算をサポートする単一の速度ベースモデルを訓練します。このアプローチにより、忠実度の損失を最小限に抑えながら効率的な推論を実現します。

MAGI-1: モデルズー

MAGI-1の事前学習済み重みを提供しており、24Bモデルと4.5Bモデル、および対応する蒸留モデルと蒸留+量子化モデルが含まれています。モデルの重みリンクは表に示されています。

モデルリンク推奨マシン
T5T5-
MAGI-1-VAEMAGI-1-VAE-
MAGI-1-24BMAGI-1-24BH100/H800 * 8
MAGI-1-24B-distillMAGI-1-24B-distillH100/H800 * 8
MAGI-1-24B-distill+fp8_quantMAGI-1-24B-distill+fp8_quantH100/H800 * 4 または RTX 4090 * 8
MAGI-1-4.5BMAGI-1-4.5BRTX 4090 * 1

MAGI-1: 評価結果

人間による評価

MAGI-1は、 Wan-2.1, 、Hailuo、HunyuanVideoなどの他のオープンソースモデルを指示の追従とモーションの品質の面で上回り、クローズドソースの商用モデルの強力な競合となっています。

MAGI-1 Evaluation

物理的評価

MAGI-1は 物理的な挙動の予測において優れた精度 を示し、動画の継続性を通じて既存のモデルを大きく上回る性能を発揮しています。

ModelPhys. IQ Score Spatial IoU Spatio Temporal Weighted Spatial IoU MSE
V2V Models
Magi (V2V)56.020.3670.2700.3040.005
VideoPoet (V2V)29.500.2040.1640.1370.010
I2V Models
Magi (I2V)30.230.2030.1510.1540.012
Kling1.6 (I2V)23.640.1970.0860.1440.025
VideoPoet (I2V)20.300.1410.1260.0870.012
Gen 3 (I2V)22.800.2010.1150.1160.015
Wan2.1 (I2V)20.890.1530.1000.1120.023
Sora (I2V)10.000.1380.0470.0630.030
GroundTruth100.00.6780.5350.5770.002

MAGI-1を選ぶ理由

最先端技術とオープンソースの透明性が融合したMAGI-1で、次世代のAI動画作成を体験してください。

シームレスな動画生成

フレーム単位の正確なタイミング調整でコンテンツをコントロールし、動画が正確なクリエイティブ仕様を満たすことを保証します。

正確なタイムライン制御

クリアで詳細な映像とスムーズな動きを持つ動画を制作し、プロフェッショナルで魅力的な体験を保証します。

向上したモーション品質

高度なモーション処理により自然な動きを体験し、ロボット的な遷移を排除して本当に自然な見た目の動画を実現します。

オープンソースイノベーション

すべてのモデルと研究が無料で利用可能な透明性のあるエコシステムに参加し、協力的な改善とイノベーションを促進します。

MAGI-1についてよくある質問

MAGI-1とは何ですか?

MAGI-1 AIは、SandAIによって開発された先進的な自己回帰型動画生成モデルで、動画チャンクのシーケンスを自己回帰的に予測することで高品質な動画を生成するように設計されています。このモデルは動画チャンクのノイズ除去を学習し、因果的な時間モデリングとストリーミング生成をサポートします。

MAGI-1の主な特徴は何ですか?

MAGI-1 AI動画生成モデルの特徴には、高速デコードと競争力のある再構成品質のためのTransformerベースのVAE、効率的な動画生成のための自己回帰型ノイズ除去アルゴリズム、大規模なトレーニング効率と安定性を向上させる拡散モデルアーキテクチャが含まれます。また、チャンクごとのプロンプティングによる制御可能な生成をサポートし、スムーズなシーン遷移、長期的な合成、きめ細かいテキスト駆動の制御を可能にします。

MAGI-1はどのように動画生成を処理しますか?

MAGI-1 AIは、動画を全体としてではなくチャンクごとに生成します。各チャンク(24フレーム)は全体的にノイズ除去され、現在のチャンクが一定のノイズ除去レベルに達すると次のチャンクの生成が開始されます。このパイプラインデザインにより、最大4つのチャンクの同時処理が可能となり、効率的な動画生成を実現します。

MAGI-1で利用可能なモデルのバリエーションは何ですか?

MAGI-1動画のモデルバリエーションには、高忠実度の動画生成に最適化された24Bモデルと、リソースが制限された環境に適した4.5Bモデルが含まれます。より高速な推論のために、蒸留モデルと量子化モデルも利用可能です。

MAGI-1は評価でどのような性能を示しますか?

MAGI-1 AIはオープンソースモデルの中で最先端の性能を達成し、指示の追従とモーションの品質で優れており、Kling1.6などのクローズドソース商用モデルの強力な潜在的競合として位置付けられています。また、動画の継続性を通じた物理的な挙動の予測において優れた精度を示し、既存のすべてのモデルを大きく上回る性能を発揮しています。

MAGI-1はどのように実行できますか?

MAGI-1 AIはDockerを使用するか、ソースコードから直接実行することができます。セットアップの容易さからDockerが推奨されています。ユーザーは提供されたrun.shスクリプトのパラメータを変更することで、入力と出力を制御できます。

MAGI-1のライセンスは何ですか?

MAGI-1はApache License 2.0の下でリリースされています。

MAGI-1の「無限動画拡張」機能とは何ですか?

MAGI-1の「無限動画拡張」機能は、「秒単位の時間軸制御」と組み合わせて動画コンテンツのシームレスな拡張を可能にし、チャンクごとのプロンプティングを通じてシーン遷移と洗練された編集を実現し、映画制作とストーリーテリングのニーズを満たします。

MAGI-1の自己回帰アーキテクチャの重要性は何ですか?

自己回帰アーキテクチャの自然な利点により、MAGI-1は動画の継続性を通じた物理的な挙動の予測において、既存のすべてのモデルを大きく上回る優れた精度を達成しています。

MAGI-1のアプリケーションは何ですか?

MAGI-1は、コンテンツ作成、ゲーム開発、映画のポストプロダクション、教育など、さまざまなアプリケーション向けに設計されています。複数のシナリオで使用できる強力な動画生成ツールを提供します。