MAGI-1: बड़े पैमाने पर ऑटोरेग्रेसिव वीडियो जनरेशन
उच्च प्रदर्शन·हल्का·पूरी तरह से ओपन-सोर्समल्टीमोडल जनरेशन और समझ के लिए MoE आर्किटेक्चर
MAGI-1 AI क्या है?
MAGI-1 एक उन्नत ऑटोरेग्रेसिव वीडियो जनरेशन मॉडल है जो SandAIद्वारा विकसित किया गया है, जो ऑटोरेग्रेसिव तरीके से वीडियो खंडों की श्रृंखलाओं की भविष्यवाणी करके उच्च गुणवत्ता वाले वीडियो बनाने के लिए डिज़ाइन किया गया है। यह मॉडल वीडियो खंडों को डीनॉइज़ करने के लिए प्रशिक्षित है, जो कारण कालिक मॉडलिंग को सक्षम बनाता है और स्ट्रीमिंग जनरेशन का समर्थन करता है। MAGI-1 छवि-से-वीडियो (I2V) कार्यों में उत्कृष्ट है, कई एल्गोरिथम नवाचारों और समर्पित इंफ्रास्ट्रक्चर स्टैक के कारण उच्च कालिक स्थिरता और स्केलेबिलिटी प्रदान करता है।
MAGI-1 का अवलोकन
विशेषता | विवरण |
---|---|
AI टूल | MAGI-1 |
श्रेणी | ऑटोरेग्रेसिव वीडियो जनरेशन मॉडल |
कार्य | वीडियो जनरेशन |
जनरेशन स्पीड | उच्च-दक्षता वीडियो जनरेशन |
रिसर्च पेपर | रिसर्च पेपर |
आधिकारिक वेबसाइट | GitHub - SandAI-org/MAGI-1 |
MAGI-1 AI: मॉडल विशेषताएं
Transformer-आधारित VAE
Transformer-आधारित आर्किटेक्चर के साथ एक वेरिएशनल ऑटोएनकोडर का उपयोग करता है, जो 8x स्थानिक और 4x कालिक कम्प्रेशन प्रदान करता है। इसके परिणामस्वरूप तेज डिकोडिंग समय और प्रतिस्पर्धी पुनर्निर्माण गुणवत्ता प्राप्त होती है।
ऑटो-रेग्रेसिव डीनॉइजिंग एल्गोरिथम
वीडियो को खंड-दर-खंड जनरेट करता है, कुशल वीडियो जनरेशन के लिए चार खंडों तक के समवर्ती प्रोसेसिंग की अनुमति देता है। प्रत्येक खंड (24 फ्रेम) को समग्र रूप से डीनॉइज़ किया जाता है, और वर्तमान खंड के डीनॉइजिंग के एक निश्चित स्तर तक पहुंचते ही अगला खंड शुरू हो जाता है।

डिफ्यूजन मॉडल आर्किटेक्चर
डिफ्यूजन Transformer पर निर्मित, Block-Causal Attention, Parallel Attention Block, QK-Norm और GQA जैसे नवाचारों को शामिल करता है। FFN में Sandwich Normalization, SwiGLU, और Softcap Modulation को शामिल करता है जो बड़े पैमाने पर प्रशिक्षण दक्षता और स्थिरता को बढ़ाता है।

डिस्टिलेशन एल्गोरिथम
वेरिएबल इन्फरेंस बजट का समर्थन करने वाले एकल वेलोसिटी-आधारित मॉडल को प्रशिक्षित करने के लिए शॉर्टकट डिस्टिलेशन का उपयोग करता है। यह दृष्टिकोण न्यूनतम फिडेलिटी हानि के साथ कुशल इन्फरेंस सुनिश्चित करता है।
MAGI-1: मॉडल जू
हम MAGI-1 के लिए पूर्व-प्रशिक्षित वेट्स प्रदान करते हैं, जिसमें 24B और 4.5B मॉडल के साथ-साथ संबंधित डिस्टिल और डिस्टिल+क्वांट मॉडल शामिल हैं। मॉडल वेट लिंक तालिका में दिखाए गए हैं।
मॉडल | लिंक | अनुशंसित मशीन |
---|---|---|
T5 | T5 | - |
MAGI-1-VAE | MAGI-1-VAE | - |
MAGI-1-24B | MAGI-1-24B | H100/H800 * 8 |
MAGI-1-24B-distill | MAGI-1-24B-distill | H100/H800 * 8 |
MAGI-1-24B-distill+fp8_quant | MAGI-1-24B-distill+fp8_quant | H100/H800 * 4 या RTX 4090 * 8 |
MAGI-1-4.5B | MAGI-1-4.5B | RTX 4090 * 1 |
MAGI-1: मूल्यांकन परिणाम
मानवीय मूल्यांकन
MAGI-1 अन्य ओपन-सोर्स मॉडल जैसे Wan-2.1, , Hailuo, और HunyuanVideo को निर्देश पालन और गति गुणवत्ता के मामले में पीछे छोड़ देता है, जो इसे बंद-स्रोत वाणिज्यिक मॉडल का एक मजबूत प्रतिस्पर्धी बनाता है।

भौतिक मूल्यांकन
MAGI-1 प्रदर्शित करता है भौतिक व्यवहार की भविष्यवाणी में श्रेष्ठ सटीकता वीडियो निरंतरता के माध्यम से, मौजूदा मॉडलों को महत्वपूर्ण रूप से पीछे छोड़ते हुए।
Model | Phys. IQ Score ↑ | Spatial IoU ↑ | Spatio Temporal ↑ | Weighted Spatial IoU ↑ | MSE ↓ |
---|---|---|---|---|---|
V2V Models | |||||
Magi (V2V) | 56.02 | 0.367 | 0.270 | 0.304 | 0.005 |
VideoPoet (V2V) | 29.50 | 0.204 | 0.164 | 0.137 | 0.010 |
I2V Models | |||||
Magi (I2V) | 30.23 | 0.203 | 0.151 | 0.154 | 0.012 |
Kling1.6 (I2V) | 23.64 | 0.197 | 0.086 | 0.144 | 0.025 |
VideoPoet (I2V) | 20.30 | 0.141 | 0.126 | 0.087 | 0.012 |
Gen 3 (I2V) | 22.80 | 0.201 | 0.115 | 0.116 | 0.015 |
Wan2.1 (I2V) | 20.89 | 0.153 | 0.100 | 0.112 | 0.023 |
Sora (I2V) | 10.00 | 0.138 | 0.047 | 0.063 | 0.030 |
GroundTruth | 100.0 | 0.678 | 0.535 | 0.577 | 0.002 |
MAGI-1 को क्यों चुनें
MAGI-1 के साथ AI वीडियो निर्माण की अगली पीढ़ी का अनुभव करें, जहां अत्याधुनिक तकनीक ओपन-सोर्स पारदर्शिता से मिलती है।
निर्बाध वीडियो जनरेशन
फ्रेम-सटीक समय समायोजन के साथ अपनी सामग्री पर नियंत्रण रखें, यह सुनिश्चित करते हुए कि आपके वीडियो सटीक रचनात्मक विशिष्टताओं को पूरा करें।
सटीक टाइमलाइन नियंत्रण
स्पष्ट, विस्तृत विजुअल और सुचारू गति के साथ वीडियो बनाएं, एक पेशेवर और आकर्षक अनुभव सुनिश्चित करें।
बेहतर गति गुणवत्ता
हमारी उन्नत गति प्रसंस्करण के साथ जीवंत आंदोलन का अनुभव करें, रोबोटिक ट्रांजिशन को समाप्त करके वास्तव में प्राकृतिक दिखने वाले वीडियो बनाएं।
ओपन-सोर्स नवाचार
एक पारदर्शी पारिस्थितिकी तंत्र में शामिल हों जहां सभी मॉडल और शोध मुफ्त में उपलब्ध हैं, सहयोगात्मक सुधार और नवाचार को बढ़ावा देते हैं।
MAGI-1 के बारे में अक्सर पूछे जाने वाले प्रश्न
MAGI-1 क्या है?
MAGI-1 AI एक उन्नत ऑटोरेग्रेसिव वीडियो जनरेशन मॉडल है जो SandAI द्वारा विकसित किया गया है, जो ऑटोरेग्रेसिव तरीके से वीडियो खंडों की श्रृंखलाओं की भविष्यवाणी करके उच्च गुणवत्ता वाले वीडियो बनाने के लिए डिज़ाइन किया गया है। यह मॉडल वीडियो खंडों को डीनॉइज़ करने के लिए प्रशिक्षित है, जो कारण कालिक मॉडलिंग को सक्षम बनाता है और स्ट्रीमिंग जनरेशन का समर्थन करता है।
MAGI-1 की प्रमुख विशेषताएं क्या हैं?
MAGI-1 AI वीडियो जनरेशन मॉडल की विशेषताओं में तेज डिकोडिंग और प्रतिस्पर्धी पुनर्निर्माण गुणवत्ता के लिए Transformer-आधारित VAE, कुशल वीडियो जनरेशन के लिए ऑटो-रेग्रेसिव डीनॉइजिंग एल्गोरिथम, और एक डिफ्यूजन मॉडल आर्किटेक्चर शामिल है जो बड़े पैमाने पर प्रशिक्षण दक्षता और स्थिरता को बढ़ाता है। यह खंड-वार प्रॉम्प्टिंग के माध्यम से नियंत्रणीय जनरेशन का भी समर्थन करता है, जो सुचारू दृश्य ट्रांजिशन, लंबी-अवधि के संश्लेषण, और सूक्ष्म टेक्स्ट-संचालित नियंत्रण को सक्षम बनाता है।
MAGI-1 वीडियो जनरेशन को कैसे संभालता है?
MAGI-1 AI पूरे के बजाय खंड-दर-खंड वीडियो जनरेट करता है। प्रत्येक खंड (24 फ्रेम) को समग्र रूप से डीनॉइज़ किया जाता है, और वर्तमान खंड के डीनॉइजिंग के एक निश्चित स्तर तक पहुंचते ही अगला खंड शुरू हो जाता है। यह पाइपलाइन डिजाइन कुशल वीडियो जनरेशन के लिए चार खंडों तक के समवर्ती प्रोसेसिंग को सक्षम बनाता है।
MAGI-1 के लिए कौन से मॉडल वेरिएंट उपलब्ध हैं?
MAGI-1 वीडियो के लिए मॉडल वेरिएंट में उच्च-फिडेलिटी वीडियो जनरेशन के लिए अनुकूलित 24B मॉडल और संसाधन-प्रतिबंधित वातावरण के लिए उपयुक्त 4.5B मॉडल शामिल हैं। तेज इन्फरेंस के लिए डिस्टिल्ड और क्वांटाइज्ड मॉडल भी उपलब्ध हैं।
MAGI-1 मूल्यांकन में कैसा प्रदर्शन करता है?
MAGI-1 AI ओपन-सोर्स मॉडलों में अत्याधुनिक प्रदर्शन प्राप्त करता है, निर्देश पालन और गति गुणवत्ता में उत्कृष्ट है, जो इसे Kling1.6 जैसे बंद-स्रोत वाणिज्यिक मॉडलों का एक मजबूत संभावित प्रतिस्पर्धी बनाता है। यह वीडियो निरंतरता के माध्यम से भौतिक व्यवहार की भविष्यवाणी में श्रेष्ठ सटीकता भी प्रदर्शित करता है, सभी मौजूदा मॉडलों को महत्वपूर्ण रूप से पीछे छोड़ते हुए।
मैं MAGI-1 को कैसे चला सकता हूं?
MAGI-1 AI को Docker का उपयोग करके या सीधे सोर्स कोड से चलाया जा सकता है। आसान सेटअप के लिए Docker की सिफारिश की जाती है। उपयोगकर्ता प्रदान किए गए run.sh स्क्रिप्ट में पैरामीटर को संशोधित करके इनपुट और आउटपुट को नियंत्रित कर सकते हैं।
MAGI-1 के लिए लाइसेंस क्या है?
MAGI-1 को Apache License 2.0 के तहत जारी किया गया है।
MAGI-1 की 'अनंत वीडियो विस्तार' सुविधा क्या है?
MAGI-1 की 'अनंत वीडियो विस्तार' सुविधा वीडियो सामग्री के निर्बाध विस्तार की अनुमति देती है, 'सेकंड-स्तर समय अक्ष नियंत्रण' के साथ संयुक्त, जो उपयोगकर्ताओं को खंड-दर-खंड प्रॉम्प्टिंग के माध्यम से दृश्य ट्रांजिशन और परिष्कृत संपादन प्राप्त करने में सक्षम बनाती है, फिल्म निर्माण और कहानी कहने की जरूरतों को पूरा करती है।
MAGI-1 की ऑटोरेग्रेसिव आर्किटेक्चर का महत्व क्या है?
ऑटोरेग्रेसिव आर्किटेक्चर के प्राकृतिक लाभों के कारण, MAGI-1 वीडियो निरंतरता के माध्यम से भौतिक व्यवहार की भविष्यवाणी में बहुत अधिक श्रेष्ठ सटीकता प्राप्त करता है—सभी मौजूदा मॉडलों को महत्वपूर्ण रूप से पीछे छोड़ते हुए।
MAGI-1 के अनुप्रयोग क्या हैं?
MAGI-1 विभिन्न अनुप्रयोगों जैसे सामग्री निर्माण, गेम विकास, फिल्म पोस्ट-प्रोडक्शन और शिक्षा के लिए डिज़ाइन किया गया है। यह वीडियो जनरेशन के लिए एक शक्तिशाली टूल प्रदान करता है जिसका उपयोग कई परिदृश्यों में किया जा सकता है।