नया

MAGI-1: बड़े पैमाने पर ऑटोरेग्रेसिव वीडियो जनरेशन

उच्च प्रदर्शन·हल्का·पूरी तरह से ओपन-सोर्समल्टीमोडल जनरेशन और समझ के लिए MoE आर्किटेक्चर

MAGI-1 AI क्या है?

MAGI-1 एक उन्नत ऑटोरेग्रेसिव वीडियो जनरेशन मॉडल है जो SandAIद्वारा विकसित किया गया है, जो ऑटोरेग्रेसिव तरीके से वीडियो खंडों की श्रृंखलाओं की भविष्यवाणी करके उच्च गुणवत्ता वाले वीडियो बनाने के लिए डिज़ाइन किया गया है। यह मॉडल वीडियो खंडों को डीनॉइज़ करने के लिए प्रशिक्षित है, जो कारण कालिक मॉडलिंग को सक्षम बनाता है और स्ट्रीमिंग जनरेशन का समर्थन करता है। MAGI-1 छवि-से-वीडियो (I2V) कार्यों में उत्कृष्ट है, कई एल्गोरिथम नवाचारों और समर्पित इंफ्रास्ट्रक्चर स्टैक के कारण उच्च कालिक स्थिरता और स्केलेबिलिटी प्रदान करता है।

MAGI-1 का अवलोकन

विशेषता	विवरण
AI टूल	MAGI-1
श्रेणी	ऑटोरेग्रेसिव वीडियो जनरेशन मॉडल
कार्य	वीडियो जनरेशन
जनरेशन स्पीड	उच्च-दक्षता वीडियो जनरेशन
रिसर्च पेपर	रिसर्च पेपर
आधिकारिक वेबसाइट	GitHub - SandAI-org/MAGI-1

MAGI-1 AI: मॉडल विशेषताएं

Transformer-आधारित VAE

Transformer-आधारित आर्किटेक्चर के साथ एक वेरिएशनल ऑटोएनकोडर का उपयोग करता है, जो 8x स्थानिक और 4x कालिक कम्प्रेशन प्रदान करता है। इसके परिणामस्वरूप तेज डिकोडिंग समय और प्रतिस्पर्धी पुनर्निर्माण गुणवत्ता प्राप्त होती है।

ऑटो-रेग्रेसिव डीनॉइजिंग एल्गोरिथम

वीडियो को खंड-दर-खंड जनरेट करता है, कुशल वीडियो जनरेशन के लिए चार खंडों तक के समवर्ती प्रोसेसिंग की अनुमति देता है। प्रत्येक खंड (24 फ्रेम) को समग्र रूप से डीनॉइज़ किया जाता है, और वर्तमान खंड के डीनॉइजिंग के एक निश्चित स्तर तक पहुंचते ही अगला खंड शुरू हो जाता है।

डिफ्यूजन मॉडल आर्किटेक्चर

डिफ्यूजन Transformer पर निर्मित, Block-Causal Attention, Parallel Attention Block, QK-Norm और GQA जैसे नवाचारों को शामिल करता है। FFN में Sandwich Normalization, SwiGLU, और Softcap Modulation को शामिल करता है जो बड़े पैमाने पर प्रशिक्षण दक्षता और स्थिरता को बढ़ाता है।

डिस्टिलेशन एल्गोरिथम

वेरिएबल इन्फरेंस बजट का समर्थन करने वाले एकल वेलोसिटी-आधारित मॉडल को प्रशिक्षित करने के लिए शॉर्टकट डिस्टिलेशन का उपयोग करता है। यह दृष्टिकोण न्यूनतम फिडेलिटी हानि के साथ कुशल इन्फरेंस सुनिश्चित करता है।

MAGI-1: मॉडल जू

हम MAGI-1 के लिए पूर्व-प्रशिक्षित वेट्स प्रदान करते हैं, जिसमें 24B और 4.5B मॉडल के साथ-साथ संबंधित डिस्टिल और डिस्टिल+क्वांट मॉडल शामिल हैं। मॉडल वेट लिंक तालिका में दिखाए गए हैं।

मॉडल	लिंक	अनुशंसित मशीन
T5	T5	-
MAGI-1-VAE	MAGI-1-VAE	-
MAGI-1-24B	MAGI-1-24B	H100/H800 * 8
MAGI-1-24B-distill	MAGI-1-24B-distill	H100/H800 * 8
MAGI-1-24B-distill+fp8_quant	MAGI-1-24B-distill+fp8_quant	H100/H800 * 4 या RTX 4090 * 8
MAGI-1-4.5B	MAGI-1-4.5B	RTX 4090 * 1

MAGI-1: मूल्यांकन परिणाम

मानवीय मूल्यांकन

MAGI-1 अन्य ओपन-सोर्स मॉडल जैसे Wan-2.1, , Hailuo, और HunyuanVideo को निर्देश पालन और गति गुणवत्ता के मामले में पीछे छोड़ देता है, जो इसे बंद-स्रोत वाणिज्यिक मॉडल का एक मजबूत प्रतिस्पर्धी बनाता है।

भौतिक मूल्यांकन

MAGI-1 प्रदर्शित करता है भौतिक व्यवहार की भविष्यवाणी में श्रेष्ठ सटीकता वीडियो निरंतरता के माध्यम से, मौजूदा मॉडलों को महत्वपूर्ण रूप से पीछे छोड़ते हुए।

Model	Phys. IQ Score ↑	Spatial IoU ↑	Spatio Temporal ↑	Weighted Spatial IoU ↑	MSE ↓
V2V Models
Magi (V2V)	56.02	0.367	0.270	0.304	0.005
VideoPoet (V2V)	29.50	0.204	0.164	0.137	0.010
I2V Models
Magi (I2V)	30.23	0.203	0.151	0.154	0.012
Kling1.6 (I2V)	23.64	0.197	0.086	0.144	0.025
VideoPoet (I2V)	20.30	0.141	0.126	0.087	0.012
Gen 3 (I2V)	22.80	0.201	0.115	0.116	0.015
Wan2.1 (I2V)	20.89	0.153	0.100	0.112	0.023
Sora (I2V)	10.00	0.138	0.047	0.063	0.030
GroundTruth	100.0	0.678	0.535	0.577	0.002

MAGI-1 को क्यों चुनें

MAGI-1 के साथ AI वीडियो निर्माण की अगली पीढ़ी का अनुभव करें, जहां अत्याधुनिक तकनीक ओपन-सोर्स पारदर्शिता से मिलती है।

निर्बाध वीडियो जनरेशन

फ्रेम-सटीक समय समायोजन के साथ अपनी सामग्री पर नियंत्रण रखें, यह सुनिश्चित करते हुए कि आपके वीडियो सटीक रचनात्मक विशिष्टताओं को पूरा करें।

सटीक टाइमलाइन नियंत्रण

स्पष्ट, विस्तृत विजुअल और सुचारू गति के साथ वीडियो बनाएं, एक पेशेवर और आकर्षक अनुभव सुनिश्चित करें।

बेहतर गति गुणवत्ता

हमारी उन्नत गति प्रसंस्करण के साथ जीवंत आंदोलन का अनुभव करें, रोबोटिक ट्रांजिशन को समाप्त करके वास्तव में प्राकृतिक दिखने वाले वीडियो बनाएं।

ओपन-सोर्स नवाचार

एक पारदर्शी पारिस्थितिकी तंत्र में शामिल हों जहां सभी मॉडल और शोध मुफ्त में उपलब्ध हैं, सहयोगात्मक सुधार और नवाचार को बढ़ावा देते हैं।

MAGI-1 के बारे में अक्सर पूछे जाने वाले प्रश्न

MAGI-1 क्या है?

MAGI-1 AI एक उन्नत ऑटोरेग्रेसिव वीडियो जनरेशन मॉडल है जो SandAI द्वारा विकसित किया गया है, जो ऑटोरेग्रेसिव तरीके से वीडियो खंडों की श्रृंखलाओं की भविष्यवाणी करके उच्च गुणवत्ता वाले वीडियो बनाने के लिए डिज़ाइन किया गया है। यह मॉडल वीडियो खंडों को डीनॉइज़ करने के लिए प्रशिक्षित है, जो कारण कालिक मॉडलिंग को सक्षम बनाता है और स्ट्रीमिंग जनरेशन का समर्थन करता है।

MAGI-1 की प्रमुख विशेषताएं क्या हैं?

MAGI-1 AI वीडियो जनरेशन मॉडल की विशेषताओं में तेज डिकोडिंग और प्रतिस्पर्धी पुनर्निर्माण गुणवत्ता के लिए Transformer-आधारित VAE, कुशल वीडियो जनरेशन के लिए ऑटो-रेग्रेसिव डीनॉइजिंग एल्गोरिथम, और एक डिफ्यूजन मॉडल आर्किटेक्चर शामिल है जो बड़े पैमाने पर प्रशिक्षण दक्षता और स्थिरता को बढ़ाता है। यह खंड-वार प्रॉम्प्टिंग के माध्यम से नियंत्रणीय जनरेशन का भी समर्थन करता है, जो सुचारू दृश्य ट्रांजिशन, लंबी-अवधि के संश्लेषण, और सूक्ष्म टेक्स्ट-संचालित नियंत्रण को सक्षम बनाता है।

MAGI-1 वीडियो जनरेशन को कैसे संभालता है?

MAGI-1 AI पूरे के बजाय खंड-दर-खंड वीडियो जनरेट करता है। प्रत्येक खंड (24 फ्रेम) को समग्र रूप से डीनॉइज़ किया जाता है, और वर्तमान खंड के डीनॉइजिंग के एक निश्चित स्तर तक पहुंचते ही अगला खंड शुरू हो जाता है। यह पाइपलाइन डिजाइन कुशल वीडियो जनरेशन के लिए चार खंडों तक के समवर्ती प्रोसेसिंग को सक्षम बनाता है।

MAGI-1 के लिए कौन से मॉडल वेरिएंट उपलब्ध हैं?

MAGI-1 वीडियो के लिए मॉडल वेरिएंट में उच्च-फिडेलिटी वीडियो जनरेशन के लिए अनुकूलित 24B मॉडल और संसाधन-प्रतिबंधित वातावरण के लिए उपयुक्त 4.5B मॉडल शामिल हैं। तेज इन्फरेंस के लिए डिस्टिल्ड और क्वांटाइज्ड मॉडल भी उपलब्ध हैं।

MAGI-1 मूल्यांकन में कैसा प्रदर्शन करता है?

MAGI-1 AI ओपन-सोर्स मॉडलों में अत्याधुनिक प्रदर्शन प्राप्त करता है, निर्देश पालन और गति गुणवत्ता में उत्कृष्ट है, जो इसे Kling1.6 जैसे बंद-स्रोत वाणिज्यिक मॉडलों का एक मजबूत संभावित प्रतिस्पर्धी बनाता है। यह वीडियो निरंतरता के माध्यम से भौतिक व्यवहार की भविष्यवाणी में श्रेष्ठ सटीकता भी प्रदर्शित करता है, सभी मौजूदा मॉडलों को महत्वपूर्ण रूप से पीछे छोड़ते हुए।

मैं MAGI-1 को कैसे चला सकता हूं?

MAGI-1 AI को Docker का उपयोग करके या सीधे सोर्स कोड से चलाया जा सकता है। आसान सेटअप के लिए Docker की सिफारिश की जाती है। उपयोगकर्ता प्रदान किए गए run.sh स्क्रिप्ट में पैरामीटर को संशोधित करके इनपुट और आउटपुट को नियंत्रित कर सकते हैं।

MAGI-1 के लिए लाइसेंस क्या है?

MAGI-1 को Apache License 2.0 के तहत जारी किया गया है।

MAGI-1 की 'अनंत वीडियो विस्तार' सुविधा क्या है?

MAGI-1 की 'अनंत वीडियो विस्तार' सुविधा वीडियो सामग्री के निर्बाध विस्तार की अनुमति देती है, 'सेकंड-स्तर समय अक्ष नियंत्रण' के साथ संयुक्त, जो उपयोगकर्ताओं को खंड-दर-खंड प्रॉम्प्टिंग के माध्यम से दृश्य ट्रांजिशन और परिष्कृत संपादन प्राप्त करने में सक्षम बनाती है, फिल्म निर्माण और कहानी कहने की जरूरतों को पूरा करती है।

MAGI-1 की ऑटोरेग्रेसिव आर्किटेक्चर का महत्व क्या है?

ऑटोरेग्रेसिव आर्किटेक्चर के प्राकृतिक लाभों के कारण, MAGI-1 वीडियो निरंतरता के माध्यम से भौतिक व्यवहार की भविष्यवाणी में बहुत अधिक श्रेष्ठ सटीकता प्राप्त करता है—सभी मौजूदा मॉडलों को महत्वपूर्ण रूप से पीछे छोड़ते हुए।

MAGI-1 के अनुप्रयोग क्या हैं?

MAGI-1 विभिन्न अनुप्रयोगों जैसे सामग्री निर्माण, गेम विकास, फिल्म पोस्ट-प्रोडक्शन और शिक्षा के लिए डिज़ाइन किया गया है। यह वीडियो जनरेशन के लिए एक शक्तिशाली टूल प्रदान करता है जिसका उपयोग कई परिदृश्यों में किया जा सकता है।