MAGI-1: การสร้างวิดีโอแบบ Autoregressive ในระดับใหญ่

ประสิทธิภาพสูงน้ำหนักเบาโอเพนซอร์สเต็มรูปแบบสถาปัตยกรรม MoE สำหรับการสร้างและความเข้าใจแบบหลายโมดัล

MAGI-1 AI คืออะไร?

MAGI-1 เป็นโมเดลการสร้างวิดีโอแบบ autoregressive ขั้นสูงที่พัฒนาโดย SandAI ออกแบบมาเพื่อสร้างวิดีโอคุณภาพสูงโดยการทำนายลำดับของชิ้นส่วนวิดีโอในแบบ autoregressive โมเดลนี้ได้รับการฝึกฝนให้ลดสัญญาณรบกวนของชิ้นส่วนวิดีโอ ช่วยให้สามารถสร้างแบบจำลองเชิงเวลาแบบเป็นเหตุเป็นผลและรองรับการสร้างแบบสตรีมมิ่ง MAGI-1 โดดเด่นในงานแปลงภาพเป็นวิดีโอ (I2V) มอบความต่อเนื่องด้านเวลาและความสามารถในการขยายที่สูง ด้วยนวัตกรรมด้านอัลกอริทึมหลายอย่างและโครงสร้างพื้นฐานเฉพาะทาง

ภาพรวมของ MAGI-1

คุณสมบัติคำอธิบาย
เครื่องมือ AIMAGI-1
หมวดหมู่โมเดลการสร้างวิดีโอแบบ Autoregressive
ฟังก์ชันการสร้างวิดีโอ
ความเร็วในการสร้างการสร้างวิดีโอประสิทธิภาพสูง
บทความวิจัยบทความวิจัย
เว็บไซต์อย่างเป็นทางการGitHub - SandAI-org/MAGI-1

MAGI-1 AI: คุณสมบัติของโมเดล

VAE แบบ Transformer

ใช้ variational autoencoder ที่มีสถาปัตยกรรมแบบ transformer มอบการบีบอัดเชิงพื้นที่ 8 เท่าและเชิงเวลา 4 เท่า ส่งผลให้มีเวลาถอดรหัสที่รวดเร็วและคุณภาพการสร้างใหม่ที่แข่งขันได้

อัลกอริทึมลดสัญญาณรบกวนแบบ Auto-Regressive

สร้างวิดีโอทีละส่วน อนุญาตให้ประมวลผลพร้อมกันได้สูงสุด 4 ส่วนเพื่อการสร้างวิดีโอที่มีประสิทธิภาพ แต่ละส่วน (24 เฟรม) จะถูกลดสัญญาณรบกวนแบบองค์รวม และส่วนถัดไปจะเริ่มทันทีที่ส่วนปัจจุบันถึงระดับการลดสัญญาณรบกวนที่กำหนด

MAGI-1 Features

สถาปัตยกรรมโมเดลแบบ Diffusion

สร้างขึ้นบน Diffusion Transformer รวมนวัตกรรมเช่น Block-Causal Attention, Parallel Attention Block, QK-Norm และ GQA มีคุณสมบัติ Sandwich Normalization ใน FFN, SwiGLU และ Softcap Modulation เพื่อเพิ่มประสิทธิภาพการฝึกและความเสถียรในระดับใหญ่

MAGI-1 Features

อัลกอริทึมการกลั่น

ใช้การกลั่นแบบลัดเพื่อฝึกโมเดลเดียวที่อิงความเร็วซึ่งรองรับงบประมาณการอนุมานที่หลากหลาย วิธีนี้ช่วยให้มั่นใจในการอนุมานที่มีประสิทธิภาพโดยสูญเสียความแม่นยำน้อยที่สุด

MAGI-1: คลังโมเดล

เราจัดเตรียมค่าน้ำหนักที่ผ่านการฝึกฝนมาแล้วสำหรับ MAGI-1 รวมถึงโมเดล 24B และ 4.5B ตลอดจนโมเดลที่ผ่านการกลั่นและการกลั่น+ควอนไทซ์ ลิงก์ค่าน้ำหนักโมเดลแสดงในตาราง

โมเดลลิงก์เครื่องที่แนะนำ
T5T5-
MAGI-1-VAEMAGI-1-VAE-
MAGI-1-24BMAGI-1-24BH100/H800 * 8
MAGI-1-24B-distillMAGI-1-24B-distillH100/H800 * 8
MAGI-1-24B-distill+fp8_quantMAGI-1-24B-distill+fp8_quantH100/H800 * 4 หรือ RTX 4090 * 8
MAGI-1-4.5BMAGI-1-4.5BRTX 4090 * 1

MAGI-1: ผลการประเมิน

การประเมินโดยมนุษย์

MAGI-1 มีประสิทธิภาพเหนือกว่าโมเดลโอเพนซอร์สอื่นๆ เช่น Wan-2.1, , Hailuo และ HunyuanVideo ในแง่ของการทำตามคำแนะนำและคุณภาพการเคลื่อนไหว ทำให้เป็นคู่แข่งที่แข็งแกร่งสำหรับโมเดลเชิงพาณิชย์แบบปิด

MAGI-1 Evaluation

การประเมินทางกายภาพ

MAGI-1 แสดงให้เห็น ความแม่นยำที่เหนือกว่าในการทำนายพฤติกรรมทางกายภาพ ผ่านการต่อเนื่องของวิดีโอ เหนือกว่าโมเดลที่มีอยู่อย่างมีนัยสำคัญ

ModelPhys. IQ Score Spatial IoU Spatio Temporal Weighted Spatial IoU MSE
V2V Models
Magi (V2V)56.020.3670.2700.3040.005
VideoPoet (V2V)29.500.2040.1640.1370.010
I2V Models
Magi (I2V)30.230.2030.1510.1540.012
Kling1.6 (I2V)23.640.1970.0860.1440.025
VideoPoet (I2V)20.300.1410.1260.0870.012
Gen 3 (I2V)22.800.2010.1150.1160.015
Wan2.1 (I2V)20.890.1530.1000.1120.023
Sora (I2V)10.000.1380.0470.0630.030
GroundTruth100.00.6780.5350.5770.002

ทำไมต้องเลือก MAGI-1

สัมผัสประสบการณ์การสร้างวิดีโอด้วย AI รุ่นถัดไปกับ MAGI-1 ที่ซึ่งเทคโนโลยีล้ำสมัยพบกับความโปร่งใสของโอเพนซอร์ส

การสร้างวิดีโอแบบไร้รอยต่อ

ควบคุมเนื้อหาของคุณด้วยการปรับเวลาที่แม่นยำระดับเฟรม ทำให้มั่นใจว่าวิดีโอของคุณตรงตามข้อกำหนดด้านความคิดสร้างสรรค์อย่างแม่นยำ

การควบคุมไทม์ไลน์ที่แม่นยำ

สร้างวิดีโอที่มีภาพที่ชัดเจน มีรายละเอียด และการเคลื่อนไหวที่ราบรื่น รับรองประสบการณ์ที่เป็นมืออาชีพและน่าสนใจ

คุณภาพการเคลื่อนไหวที่ดีขึ้น

สัมผัสการเคลื่อนไหวที่เหมือนจริงด้วยการประมวลผลการเคลื่อนไหวขั้นสูงของเรา กำจัดการเปลี่ยนผ่านแบบหุ่นยนต์เพื่อวิดีโอที่ดูเป็นธรรมชาติอย่างแท้จริง

นวัตกรรมโอเพนซอร์ส

เข้าร่วมระบบนิเวศที่โปร่งใสซึ่งโมเดลและการวิจัยทั้งหมดมีให้ใช้ฟรี ส่งเสริมการปรับปรุงและนวัตกรรมแบบร่วมมือ

คำถามที่พบบ่อยเกี่ยวกับ MAGI-1

MAGI-1 คืออะไร?

MAGI-1 AI เป็นโมเดลการสร้างวิดีโอแบบ autoregressive ขั้นสูงที่พัฒนาโดย SandAI ออกแบบมาเพื่อสร้างวิดีโอคุณภาพสูงโดยการทำนายลำดับของชิ้นส่วนวิดีโอในแบบ autoregressive โมเดลนี้ได้รับการฝึกฝนให้ลดสัญญาณรบกวนของชิ้นส่วนวิดีโอ ช่วยให้สามารถสร้างแบบจำลองเชิงเวลาแบบเป็นเหตุเป็นผลและรองรับการสร้างแบบสตรีมมิ่ง

คุณสมบัติหลักของ MAGI-1 มีอะไรบ้าง?

คุณสมบัติของโมเดลการสร้างวิดีโอ MAGI-1 AI รวมถึง VAE แบบ Transformer สำหรับการถอดรหัสที่รวดเร็วและคุณภาพการสร้างใหม่ที่แข่งขันได้ อัลกอริทึมลดสัญญาณรบกวนแบบ auto-regressive สำหรับการสร้างวิดีโอที่มีประสิทธิภาพ และสถาปัตยกรรมโมเดล diffusion ที่เพิ่มประสิทธิภาพการฝึกและความเสถียรในระดับใหญ่ นอกจากนี้ยังรองรับการสร้างแบบควบคุมได้ผ่านการแนะนำแบบแบ่งส่วน ช่วยให้เกิดการเปลี่ยนฉากที่ราบรื่น การสังเคราะห์ระยะยาว และการควบคุมแบบละเอียดที่ขับเคลื่อนด้วยข้อความ

MAGI-1 จัดการกับการสร้างวิดีโออย่างไร?

MAGI-1 AI สร้างวิดีโอทีละส่วนแทนที่จะสร้างทั้งหมดในครั้งเดียว แต่ละส่วน (24 เฟรม) จะถูกลดสัญญาณรบกวนแบบองค์รวม และการสร้างส่วนถัดไปจะเริ่มทันทีที่ส่วนปัจจุบันถึงระดับการลดสัญญาณรบกวนที่กำหนด การออกแบบไปป์ไลน์นี้ช่วยให้ประมวลผลพร้อมกันได้สูงสุด 4 ส่วนเพื่อการสร้างวิดีโอที่มีประสิทธิภาพ

มีรุ่นโมเดลอะไรบ้างสำหรับ MAGI-1?

รุ่นโมเดลสำหรับวิดีโอ MAGI-1 รวมถึงโมเดล 24B ที่ปรับให้เหมาะสำหรับการสร้างวิดีโอความละเอียดสูง และโมเดล 4.5B ที่เหมาะสำหรับสภาพแวดล้อมที่มีทรัพยากรจำกัด นอกจากนี้ยังมีโมเดลที่ผ่านการกลั่นและควอนไทซ์สำหรับการอนุมานที่เร็วขึ้น

MAGI-1 ทำงานได้ดีแค่ไหนในการประเมิน?

MAGI-1 AI บรรลุประสิทธิภาพระดับสูงสุดในบรรดาโมเดลโอเพนซอร์ส โดดเด่นในการทำตามคำแนะนำและคุณภาพการเคลื่อนไหว จัดวางตำแหน่งให้เป็นคู่แข่งที่แข็งแกร่งสำหรับโมเดลเชิงพาณิชย์แบบปิดเช่น Kling1.6 นอกจากนี้ยังแสดงความแม่นยำที่เหนือกว่าในการทำนายพฤติกรรมทางกายภาพผ่านการต่อเนื่องของวิดีโอ เหนือกว่าโมเดลที่มีอยู่ทั้งหมดอย่างมีนัยสำคัญ

ฉันจะรัน MAGI-1 ได้อย่างไร?

MAGI-1 AI สามารถรันโดยใช้ Docker หรือโดยตรงจากซอร์สโค้ด แนะนำให้ใช้ Docker เพื่อความง่ายในการตั้งค่า ผู้ใช้สามารถควบคุมอินพุตและเอาต์พุตโดยการแก้ไขพารามิเตอร์ในสคริปต์ run.sh ที่ให้มา

MAGI-1 ใช้ใบอนุญาตอะไร?

MAGI-1 เผยแพร่ภายใต้ใบอนุญาต Apache License 2.0

ฟีเจอร์ 'การขยายวิดีโอไม่จำกัด' ของ MAGI-1 คืออะไร?

ฟังก์ชัน 'การขยายวิดีโอไม่จำกัด' ของ MAGI-1 ช่วยให้ขยายเนื้อหาวิดีโอได้อย่างไร้รอยต่อ รวมกับ 'การควบคุมแกนเวลาระดับวินาที' ช่วยให้ผู้ใช้สามารถสร้างการเปลี่ยนฉากและการแก้ไขที่ละเอียดผ่านการแนะนำแบบแบ่งส่วน ตอบสนองความต้องการของการผลิตภาพยนตร์และการเล่าเรื่อง

ความสำคัญของสถาปัตยกรรมแบบ autoregressive ของ MAGI-1 คืออะไร?

ด้วยข้อได้เปรียบตามธรรมชาติของสถาปัตยกรรมแบบ autoregressive MAGI-1 บรรลุความแม่นยำที่เหนือกว่ามากในการทำนายพฤติกรรมทางกายภาพผ่านการต่อเนื่องของวิดีโอ—เหนือกว่าโมเดลที่มีอยู่ทั้งหมดอย่างมีนัยสำคัญ

MAGI-1 มีการใช้งานอะไรบ้าง?

MAGI-1 ออกแบบมาสำหรับการใช้งานที่หลากหลาย เช่น การสร้างเนื้อหา การพัฒนาเกม การตัดต่อภาพยนตร์ และการศึกษา มันเสนอเครื่องมือที่ทรงพลังสำหรับการสร้างวิดีโอที่สามารถใช้ได้ในหลายสถานการณ์