ใหม่

MAGI-1: การสร้างวิดีโอแบบ Autoregressive ในระดับใหญ่

ประสิทธิภาพสูง·น้ำหนักเบา·โอเพนซอร์สเต็มรูปแบบสถาปัตยกรรม MoE สำหรับการสร้างและความเข้าใจแบบหลายโมดัล

MAGI-1 AI คืออะไร?

MAGI-1 เป็นโมเดลการสร้างวิดีโอแบบ autoregressive ขั้นสูงที่พัฒนาโดย SandAI ออกแบบมาเพื่อสร้างวิดีโอคุณภาพสูงโดยการทำนายลำดับของชิ้นส่วนวิดีโอในแบบ autoregressive โมเดลนี้ได้รับการฝึกฝนให้ลดสัญญาณรบกวนของชิ้นส่วนวิดีโอ ช่วยให้สามารถสร้างแบบจำลองเชิงเวลาแบบเป็นเหตุเป็นผลและรองรับการสร้างแบบสตรีมมิ่ง MAGI-1 โดดเด่นในงานแปลงภาพเป็นวิดีโอ (I2V) มอบความต่อเนื่องด้านเวลาและความสามารถในการขยายที่สูง ด้วยนวัตกรรมด้านอัลกอริทึมหลายอย่างและโครงสร้างพื้นฐานเฉพาะทาง

ภาพรวมของ MAGI-1

คุณสมบัติ	คำอธิบาย
เครื่องมือ AI	MAGI-1
หมวดหมู่	โมเดลการสร้างวิดีโอแบบ Autoregressive
ฟังก์ชัน	การสร้างวิดีโอ
ความเร็วในการสร้าง	การสร้างวิดีโอประสิทธิภาพสูง
บทความวิจัย	บทความวิจัย
เว็บไซต์อย่างเป็นทางการ	GitHub - SandAI-org/MAGI-1

MAGI-1 AI: คุณสมบัติของโมเดล

VAE แบบ Transformer

ใช้ variational autoencoder ที่มีสถาปัตยกรรมแบบ transformer มอบการบีบอัดเชิงพื้นที่ 8 เท่าและเชิงเวลา 4 เท่า ส่งผลให้มีเวลาถอดรหัสที่รวดเร็วและคุณภาพการสร้างใหม่ที่แข่งขันได้

อัลกอริทึมลดสัญญาณรบกวนแบบ Auto-Regressive

สร้างวิดีโอทีละส่วน อนุญาตให้ประมวลผลพร้อมกันได้สูงสุด 4 ส่วนเพื่อการสร้างวิดีโอที่มีประสิทธิภาพ แต่ละส่วน (24 เฟรม) จะถูกลดสัญญาณรบกวนแบบองค์รวม และส่วนถัดไปจะเริ่มทันทีที่ส่วนปัจจุบันถึงระดับการลดสัญญาณรบกวนที่กำหนด

สถาปัตยกรรมโมเดลแบบ Diffusion

สร้างขึ้นบน Diffusion Transformer รวมนวัตกรรมเช่น Block-Causal Attention, Parallel Attention Block, QK-Norm และ GQA มีคุณสมบัติ Sandwich Normalization ใน FFN, SwiGLU และ Softcap Modulation เพื่อเพิ่มประสิทธิภาพการฝึกและความเสถียรในระดับใหญ่

อัลกอริทึมการกลั่น

ใช้การกลั่นแบบลัดเพื่อฝึกโมเดลเดียวที่อิงความเร็วซึ่งรองรับงบประมาณการอนุมานที่หลากหลาย วิธีนี้ช่วยให้มั่นใจในการอนุมานที่มีประสิทธิภาพโดยสูญเสียความแม่นยำน้อยที่สุด

MAGI-1: คลังโมเดล

เราจัดเตรียมค่าน้ำหนักที่ผ่านการฝึกฝนมาแล้วสำหรับ MAGI-1 รวมถึงโมเดล 24B และ 4.5B ตลอดจนโมเดลที่ผ่านการกลั่นและการกลั่น+ควอนไทซ์ ลิงก์ค่าน้ำหนักโมเดลแสดงในตาราง

โมเดล	ลิงก์	เครื่องที่แนะนำ
T5	T5	-
MAGI-1-VAE	MAGI-1-VAE	-
MAGI-1-24B	MAGI-1-24B	H100/H800 * 8
MAGI-1-24B-distill	MAGI-1-24B-distill	H100/H800 * 8
MAGI-1-24B-distill+fp8_quant	MAGI-1-24B-distill+fp8_quant	H100/H800 * 4 หรือ RTX 4090 * 8
MAGI-1-4.5B	MAGI-1-4.5B	RTX 4090 * 1

MAGI-1: ผลการประเมิน

การประเมินโดยมนุษย์

MAGI-1 มีประสิทธิภาพเหนือกว่าโมเดลโอเพนซอร์สอื่นๆ เช่น Wan-2.1, , Hailuo และ HunyuanVideo ในแง่ของการทำตามคำแนะนำและคุณภาพการเคลื่อนไหว ทำให้เป็นคู่แข่งที่แข็งแกร่งสำหรับโมเดลเชิงพาณิชย์แบบปิด

การประเมินทางกายภาพ

MAGI-1 แสดงให้เห็น ความแม่นยำที่เหนือกว่าในการทำนายพฤติกรรมทางกายภาพ ผ่านการต่อเนื่องของวิดีโอ เหนือกว่าโมเดลที่มีอยู่อย่างมีนัยสำคัญ

Model	Phys. IQ Score ↑	Spatial IoU ↑	Spatio Temporal ↑	Weighted Spatial IoU ↑	MSE ↓
V2V Models
Magi (V2V)	56.02	0.367	0.270	0.304	0.005
VideoPoet (V2V)	29.50	0.204	0.164	0.137	0.010
I2V Models
Magi (I2V)	30.23	0.203	0.151	0.154	0.012
Kling1.6 (I2V)	23.64	0.197	0.086	0.144	0.025
VideoPoet (I2V)	20.30	0.141	0.126	0.087	0.012
Gen 3 (I2V)	22.80	0.201	0.115	0.116	0.015
Wan2.1 (I2V)	20.89	0.153	0.100	0.112	0.023
Sora (I2V)	10.00	0.138	0.047	0.063	0.030
GroundTruth	100.0	0.678	0.535	0.577	0.002

ทำไมต้องเลือก MAGI-1

สัมผัสประสบการณ์การสร้างวิดีโอด้วย AI รุ่นถัดไปกับ MAGI-1 ที่ซึ่งเทคโนโลยีล้ำสมัยพบกับความโปร่งใสของโอเพนซอร์ส

การสร้างวิดีโอแบบไร้รอยต่อ

ควบคุมเนื้อหาของคุณด้วยการปรับเวลาที่แม่นยำระดับเฟรม ทำให้มั่นใจว่าวิดีโอของคุณตรงตามข้อกำหนดด้านความคิดสร้างสรรค์อย่างแม่นยำ

การควบคุมไทม์ไลน์ที่แม่นยำ

สร้างวิดีโอที่มีภาพที่ชัดเจน มีรายละเอียด และการเคลื่อนไหวที่ราบรื่น รับรองประสบการณ์ที่เป็นมืออาชีพและน่าสนใจ

คุณภาพการเคลื่อนไหวที่ดีขึ้น

สัมผัสการเคลื่อนไหวที่เหมือนจริงด้วยการประมวลผลการเคลื่อนไหวขั้นสูงของเรา กำจัดการเปลี่ยนผ่านแบบหุ่นยนต์เพื่อวิดีโอที่ดูเป็นธรรมชาติอย่างแท้จริง

นวัตกรรมโอเพนซอร์ส

เข้าร่วมระบบนิเวศที่โปร่งใสซึ่งโมเดลและการวิจัยทั้งหมดมีให้ใช้ฟรี ส่งเสริมการปรับปรุงและนวัตกรรมแบบร่วมมือ

คำถามที่พบบ่อยเกี่ยวกับ MAGI-1

MAGI-1 คืออะไร?

MAGI-1 AI เป็นโมเดลการสร้างวิดีโอแบบ autoregressive ขั้นสูงที่พัฒนาโดย SandAI ออกแบบมาเพื่อสร้างวิดีโอคุณภาพสูงโดยการทำนายลำดับของชิ้นส่วนวิดีโอในแบบ autoregressive โมเดลนี้ได้รับการฝึกฝนให้ลดสัญญาณรบกวนของชิ้นส่วนวิดีโอ ช่วยให้สามารถสร้างแบบจำลองเชิงเวลาแบบเป็นเหตุเป็นผลและรองรับการสร้างแบบสตรีมมิ่ง

คุณสมบัติหลักของ MAGI-1 มีอะไรบ้าง?

คุณสมบัติของโมเดลการสร้างวิดีโอ MAGI-1 AI รวมถึง VAE แบบ Transformer สำหรับการถอดรหัสที่รวดเร็วและคุณภาพการสร้างใหม่ที่แข่งขันได้ อัลกอริทึมลดสัญญาณรบกวนแบบ auto-regressive สำหรับการสร้างวิดีโอที่มีประสิทธิภาพ และสถาปัตยกรรมโมเดล diffusion ที่เพิ่มประสิทธิภาพการฝึกและความเสถียรในระดับใหญ่ นอกจากนี้ยังรองรับการสร้างแบบควบคุมได้ผ่านการแนะนำแบบแบ่งส่วน ช่วยให้เกิดการเปลี่ยนฉากที่ราบรื่น การสังเคราะห์ระยะยาว และการควบคุมแบบละเอียดที่ขับเคลื่อนด้วยข้อความ

MAGI-1 จัดการกับการสร้างวิดีโออย่างไร?

MAGI-1 AI สร้างวิดีโอทีละส่วนแทนที่จะสร้างทั้งหมดในครั้งเดียว แต่ละส่วน (24 เฟรม) จะถูกลดสัญญาณรบกวนแบบองค์รวม และการสร้างส่วนถัดไปจะเริ่มทันทีที่ส่วนปัจจุบันถึงระดับการลดสัญญาณรบกวนที่กำหนด การออกแบบไปป์ไลน์นี้ช่วยให้ประมวลผลพร้อมกันได้สูงสุด 4 ส่วนเพื่อการสร้างวิดีโอที่มีประสิทธิภาพ

มีรุ่นโมเดลอะไรบ้างสำหรับ MAGI-1?

รุ่นโมเดลสำหรับวิดีโอ MAGI-1 รวมถึงโมเดล 24B ที่ปรับให้เหมาะสำหรับการสร้างวิดีโอความละเอียดสูง และโมเดล 4.5B ที่เหมาะสำหรับสภาพแวดล้อมที่มีทรัพยากรจำกัด นอกจากนี้ยังมีโมเดลที่ผ่านการกลั่นและควอนไทซ์สำหรับการอนุมานที่เร็วขึ้น

MAGI-1 ทำงานได้ดีแค่ไหนในการประเมิน?

MAGI-1 AI บรรลุประสิทธิภาพระดับสูงสุดในบรรดาโมเดลโอเพนซอร์ส โดดเด่นในการทำตามคำแนะนำและคุณภาพการเคลื่อนไหว จัดวางตำแหน่งให้เป็นคู่แข่งที่แข็งแกร่งสำหรับโมเดลเชิงพาณิชย์แบบปิดเช่น Kling1.6 นอกจากนี้ยังแสดงความแม่นยำที่เหนือกว่าในการทำนายพฤติกรรมทางกายภาพผ่านการต่อเนื่องของวิดีโอ เหนือกว่าโมเดลที่มีอยู่ทั้งหมดอย่างมีนัยสำคัญ

ฉันจะรัน MAGI-1 ได้อย่างไร?

MAGI-1 AI สามารถรันโดยใช้ Docker หรือโดยตรงจากซอร์สโค้ด แนะนำให้ใช้ Docker เพื่อความง่ายในการตั้งค่า ผู้ใช้สามารถควบคุมอินพุตและเอาต์พุตโดยการแก้ไขพารามิเตอร์ในสคริปต์ run.sh ที่ให้มา

MAGI-1 ใช้ใบอนุญาตอะไร?

MAGI-1 เผยแพร่ภายใต้ใบอนุญาต Apache License 2.0

ฟีเจอร์ 'การขยายวิดีโอไม่จำกัด' ของ MAGI-1 คืออะไร?

ฟังก์ชัน 'การขยายวิดีโอไม่จำกัด' ของ MAGI-1 ช่วยให้ขยายเนื้อหาวิดีโอได้อย่างไร้รอยต่อ รวมกับ 'การควบคุมแกนเวลาระดับวินาที' ช่วยให้ผู้ใช้สามารถสร้างการเปลี่ยนฉากและการแก้ไขที่ละเอียดผ่านการแนะนำแบบแบ่งส่วน ตอบสนองความต้องการของการผลิตภาพยนตร์และการเล่าเรื่อง

ความสำคัญของสถาปัตยกรรมแบบ autoregressive ของ MAGI-1 คืออะไร?

ด้วยข้อได้เปรียบตามธรรมชาติของสถาปัตยกรรมแบบ autoregressive MAGI-1 บรรลุความแม่นยำที่เหนือกว่ามากในการทำนายพฤติกรรมทางกายภาพผ่านการต่อเนื่องของวิดีโอ—เหนือกว่าโมเดลที่มีอยู่ทั้งหมดอย่างมีนัยสำคัญ

MAGI-1 มีการใช้งานอะไรบ้าง?

MAGI-1 ออกแบบมาสำหรับการใช้งานที่หลากหลาย เช่น การสร้างเนื้อหา การพัฒนาเกม การตัดต่อภาพยนตร์ และการศึกษา มันเสนอเครื่องมือที่ทรงพลังสำหรับการสร้างวิดีโอที่สามารถใช้ได้ในหลายสถานการณ์