MAGI-1: การสร้างวิดีโอแบบ Autoregressive ในระดับใหญ่
ประสิทธิภาพสูง·น้ำหนักเบา·โอเพนซอร์สเต็มรูปแบบสถาปัตยกรรม MoE สำหรับการสร้างและความเข้าใจแบบหลายโมดัล
MAGI-1 AI คืออะไร?
MAGI-1 เป็นโมเดลการสร้างวิดีโอแบบ autoregressive ขั้นสูงที่พัฒนาโดย SandAI ออกแบบมาเพื่อสร้างวิดีโอคุณภาพสูงโดยการทำนายลำดับของชิ้นส่วนวิดีโอในแบบ autoregressive โมเดลนี้ได้รับการฝึกฝนให้ลดสัญญาณรบกวนของชิ้นส่วนวิดีโอ ช่วยให้สามารถสร้างแบบจำลองเชิงเวลาแบบเป็นเหตุเป็นผลและรองรับการสร้างแบบสตรีมมิ่ง MAGI-1 โดดเด่นในงานแปลงภาพเป็นวิดีโอ (I2V) มอบความต่อเนื่องด้านเวลาและความสามารถในการขยายที่สูง ด้วยนวัตกรรมด้านอัลกอริทึมหลายอย่างและโครงสร้างพื้นฐานเฉพาะทาง
ภาพรวมของ MAGI-1
คุณสมบัติ | คำอธิบาย |
---|---|
เครื่องมือ AI | MAGI-1 |
หมวดหมู่ | โมเดลการสร้างวิดีโอแบบ Autoregressive |
ฟังก์ชัน | การสร้างวิดีโอ |
ความเร็วในการสร้าง | การสร้างวิดีโอประสิทธิภาพสูง |
บทความวิจัย | บทความวิจัย |
เว็บไซต์อย่างเป็นทางการ | GitHub - SandAI-org/MAGI-1 |
MAGI-1 AI: คุณสมบัติของโมเดล
VAE แบบ Transformer
ใช้ variational autoencoder ที่มีสถาปัตยกรรมแบบ transformer มอบการบีบอัดเชิงพื้นที่ 8 เท่าและเชิงเวลา 4 เท่า ส่งผลให้มีเวลาถอดรหัสที่รวดเร็วและคุณภาพการสร้างใหม่ที่แข่งขันได้
อัลกอริทึมลดสัญญาณรบกวนแบบ Auto-Regressive
สร้างวิดีโอทีละส่วน อนุญาตให้ประมวลผลพร้อมกันได้สูงสุด 4 ส่วนเพื่อการสร้างวิดีโอที่มีประสิทธิภาพ แต่ละส่วน (24 เฟรม) จะถูกลดสัญญาณรบกวนแบบองค์รวม และส่วนถัดไปจะเริ่มทันทีที่ส่วนปัจจุบันถึงระดับการลดสัญญาณรบกวนที่กำหนด

สถาปัตยกรรมโมเดลแบบ Diffusion
สร้างขึ้นบน Diffusion Transformer รวมนวัตกรรมเช่น Block-Causal Attention, Parallel Attention Block, QK-Norm และ GQA มีคุณสมบัติ Sandwich Normalization ใน FFN, SwiGLU และ Softcap Modulation เพื่อเพิ่มประสิทธิภาพการฝึกและความเสถียรในระดับใหญ่

อัลกอริทึมการกลั่น
ใช้การกลั่นแบบลัดเพื่อฝึกโมเดลเดียวที่อิงความเร็วซึ่งรองรับงบประมาณการอนุมานที่หลากหลาย วิธีนี้ช่วยให้มั่นใจในการอนุมานที่มีประสิทธิภาพโดยสูญเสียความแม่นยำน้อยที่สุด
MAGI-1: คลังโมเดล
เราจัดเตรียมค่าน้ำหนักที่ผ่านการฝึกฝนมาแล้วสำหรับ MAGI-1 รวมถึงโมเดล 24B และ 4.5B ตลอดจนโมเดลที่ผ่านการกลั่นและการกลั่น+ควอนไทซ์ ลิงก์ค่าน้ำหนักโมเดลแสดงในตาราง
โมเดล | ลิงก์ | เครื่องที่แนะนำ |
---|---|---|
T5 | T5 | - |
MAGI-1-VAE | MAGI-1-VAE | - |
MAGI-1-24B | MAGI-1-24B | H100/H800 * 8 |
MAGI-1-24B-distill | MAGI-1-24B-distill | H100/H800 * 8 |
MAGI-1-24B-distill+fp8_quant | MAGI-1-24B-distill+fp8_quant | H100/H800 * 4 หรือ RTX 4090 * 8 |
MAGI-1-4.5B | MAGI-1-4.5B | RTX 4090 * 1 |
MAGI-1: ผลการประเมิน
การประเมินโดยมนุษย์
MAGI-1 มีประสิทธิภาพเหนือกว่าโมเดลโอเพนซอร์สอื่นๆ เช่น Wan-2.1, , Hailuo และ HunyuanVideo ในแง่ของการทำตามคำแนะนำและคุณภาพการเคลื่อนไหว ทำให้เป็นคู่แข่งที่แข็งแกร่งสำหรับโมเดลเชิงพาณิชย์แบบปิด

การประเมินทางกายภาพ
MAGI-1 แสดงให้เห็น ความแม่นยำที่เหนือกว่าในการทำนายพฤติกรรมทางกายภาพ ผ่านการต่อเนื่องของวิดีโอ เหนือกว่าโมเดลที่มีอยู่อย่างมีนัยสำคัญ
Model | Phys. IQ Score ↑ | Spatial IoU ↑ | Spatio Temporal ↑ | Weighted Spatial IoU ↑ | MSE ↓ |
---|---|---|---|---|---|
V2V Models | |||||
Magi (V2V) | 56.02 | 0.367 | 0.270 | 0.304 | 0.005 |
VideoPoet (V2V) | 29.50 | 0.204 | 0.164 | 0.137 | 0.010 |
I2V Models | |||||
Magi (I2V) | 30.23 | 0.203 | 0.151 | 0.154 | 0.012 |
Kling1.6 (I2V) | 23.64 | 0.197 | 0.086 | 0.144 | 0.025 |
VideoPoet (I2V) | 20.30 | 0.141 | 0.126 | 0.087 | 0.012 |
Gen 3 (I2V) | 22.80 | 0.201 | 0.115 | 0.116 | 0.015 |
Wan2.1 (I2V) | 20.89 | 0.153 | 0.100 | 0.112 | 0.023 |
Sora (I2V) | 10.00 | 0.138 | 0.047 | 0.063 | 0.030 |
GroundTruth | 100.0 | 0.678 | 0.535 | 0.577 | 0.002 |
ทำไมต้องเลือก MAGI-1
สัมผัสประสบการณ์การสร้างวิดีโอด้วย AI รุ่นถัดไปกับ MAGI-1 ที่ซึ่งเทคโนโลยีล้ำสมัยพบกับความโปร่งใสของโอเพนซอร์ส
การสร้างวิดีโอแบบไร้รอยต่อ
ควบคุมเนื้อหาของคุณด้วยการปรับเวลาที่แม่นยำระดับเฟรม ทำให้มั่นใจว่าวิดีโอของคุณตรงตามข้อกำหนดด้านความคิดสร้างสรรค์อย่างแม่นยำ
การควบคุมไทม์ไลน์ที่แม่นยำ
สร้างวิดีโอที่มีภาพที่ชัดเจน มีรายละเอียด และการเคลื่อนไหวที่ราบรื่น รับรองประสบการณ์ที่เป็นมืออาชีพและน่าสนใจ
คุณภาพการเคลื่อนไหวที่ดีขึ้น
สัมผัสการเคลื่อนไหวที่เหมือนจริงด้วยการประมวลผลการเคลื่อนไหวขั้นสูงของเรา กำจัดการเปลี่ยนผ่านแบบหุ่นยนต์เพื่อวิดีโอที่ดูเป็นธรรมชาติอย่างแท้จริง
นวัตกรรมโอเพนซอร์ส
เข้าร่วมระบบนิเวศที่โปร่งใสซึ่งโมเดลและการวิจัยทั้งหมดมีให้ใช้ฟรี ส่งเสริมการปรับปรุงและนวัตกรรมแบบร่วมมือ
คำถามที่พบบ่อยเกี่ยวกับ MAGI-1
MAGI-1 คืออะไร?
MAGI-1 AI เป็นโมเดลการสร้างวิดีโอแบบ autoregressive ขั้นสูงที่พัฒนาโดย SandAI ออกแบบมาเพื่อสร้างวิดีโอคุณภาพสูงโดยการทำนายลำดับของชิ้นส่วนวิดีโอในแบบ autoregressive โมเดลนี้ได้รับการฝึกฝนให้ลดสัญญาณรบกวนของชิ้นส่วนวิดีโอ ช่วยให้สามารถสร้างแบบจำลองเชิงเวลาแบบเป็นเหตุเป็นผลและรองรับการสร้างแบบสตรีมมิ่ง
คุณสมบัติหลักของ MAGI-1 มีอะไรบ้าง?
คุณสมบัติของโมเดลการสร้างวิดีโอ MAGI-1 AI รวมถึง VAE แบบ Transformer สำหรับการถอดรหัสที่รวดเร็วและคุณภาพการสร้างใหม่ที่แข่งขันได้ อัลกอริทึมลดสัญญาณรบกวนแบบ auto-regressive สำหรับการสร้างวิดีโอที่มีประสิทธิภาพ และสถาปัตยกรรมโมเดล diffusion ที่เพิ่มประสิทธิภาพการฝึกและความเสถียรในระดับใหญ่ นอกจากนี้ยังรองรับการสร้างแบบควบคุมได้ผ่านการแนะนำแบบแบ่งส่วน ช่วยให้เกิดการเปลี่ยนฉากที่ราบรื่น การสังเคราะห์ระยะยาว และการควบคุมแบบละเอียดที่ขับเคลื่อนด้วยข้อความ
MAGI-1 จัดการกับการสร้างวิดีโออย่างไร?
MAGI-1 AI สร้างวิดีโอทีละส่วนแทนที่จะสร้างทั้งหมดในครั้งเดียว แต่ละส่วน (24 เฟรม) จะถูกลดสัญญาณรบกวนแบบองค์รวม และการสร้างส่วนถัดไปจะเริ่มทันทีที่ส่วนปัจจุบันถึงระดับการลดสัญญาณรบกวนที่กำหนด การออกแบบไปป์ไลน์นี้ช่วยให้ประมวลผลพร้อมกันได้สูงสุด 4 ส่วนเพื่อการสร้างวิดีโอที่มีประสิทธิภาพ
มีรุ่นโมเดลอะไรบ้างสำหรับ MAGI-1?
รุ่นโมเดลสำหรับวิดีโอ MAGI-1 รวมถึงโมเดล 24B ที่ปรับให้เหมาะสำหรับการสร้างวิดีโอความละเอียดสูง และโมเดล 4.5B ที่เหมาะสำหรับสภาพแวดล้อมที่มีทรัพยากรจำกัด นอกจากนี้ยังมีโมเดลที่ผ่านการกลั่นและควอนไทซ์สำหรับการอนุมานที่เร็วขึ้น
MAGI-1 ทำงานได้ดีแค่ไหนในการประเมิน?
MAGI-1 AI บรรลุประสิทธิภาพระดับสูงสุดในบรรดาโมเดลโอเพนซอร์ส โดดเด่นในการทำตามคำแนะนำและคุณภาพการเคลื่อนไหว จัดวางตำแหน่งให้เป็นคู่แข่งที่แข็งแกร่งสำหรับโมเดลเชิงพาณิชย์แบบปิดเช่น Kling1.6 นอกจากนี้ยังแสดงความแม่นยำที่เหนือกว่าในการทำนายพฤติกรรมทางกายภาพผ่านการต่อเนื่องของวิดีโอ เหนือกว่าโมเดลที่มีอยู่ทั้งหมดอย่างมีนัยสำคัญ
ฉันจะรัน MAGI-1 ได้อย่างไร?
MAGI-1 AI สามารถรันโดยใช้ Docker หรือโดยตรงจากซอร์สโค้ด แนะนำให้ใช้ Docker เพื่อความง่ายในการตั้งค่า ผู้ใช้สามารถควบคุมอินพุตและเอาต์พุตโดยการแก้ไขพารามิเตอร์ในสคริปต์ run.sh ที่ให้มา
MAGI-1 ใช้ใบอนุญาตอะไร?
MAGI-1 เผยแพร่ภายใต้ใบอนุญาต Apache License 2.0
ฟีเจอร์ 'การขยายวิดีโอไม่จำกัด' ของ MAGI-1 คืออะไร?
ฟังก์ชัน 'การขยายวิดีโอไม่จำกัด' ของ MAGI-1 ช่วยให้ขยายเนื้อหาวิดีโอได้อย่างไร้รอยต่อ รวมกับ 'การควบคุมแกนเวลาระดับวินาที' ช่วยให้ผู้ใช้สามารถสร้างการเปลี่ยนฉากและการแก้ไขที่ละเอียดผ่านการแนะนำแบบแบ่งส่วน ตอบสนองความต้องการของการผลิตภาพยนตร์และการเล่าเรื่อง
ความสำคัญของสถาปัตยกรรมแบบ autoregressive ของ MAGI-1 คืออะไร?
ด้วยข้อได้เปรียบตามธรรมชาติของสถาปัตยกรรมแบบ autoregressive MAGI-1 บรรลุความแม่นยำที่เหนือกว่ามากในการทำนายพฤติกรรมทางกายภาพผ่านการต่อเนื่องของวิดีโอ—เหนือกว่าโมเดลที่มีอยู่ทั้งหมดอย่างมีนัยสำคัญ
MAGI-1 มีการใช้งานอะไรบ้าง?
MAGI-1 ออกแบบมาสำหรับการใช้งานที่หลากหลาย เช่น การสร้างเนื้อหา การพัฒนาเกม การตัดต่อภาพยนตร์ และการศึกษา มันเสนอเครื่องมือที่ทรงพลังสำหรับการสร้างวิดีโอที่สามารถใช้ได้ในหลายสถานการณ์