MAGI-1: बड़े पैमाने पर ऑटोरेग्रेसिव वीडियो जनरेशन

उच्च प्रदर्शनहल्कापूरी तरह से ओपन-सोर्समल्टीमोडल जनरेशन और समझ के लिए MoE आर्किटेक्चर

MAGI-1 AI क्या है?

MAGI-1 एक उन्नत ऑटोरेग्रेसिव वीडियो जनरेशन मॉडल है जो SandAIद्वारा विकसित किया गया है, जो ऑटोरेग्रेसिव तरीके से वीडियो खंडों की श्रृंखलाओं की भविष्यवाणी करके उच्च गुणवत्ता वाले वीडियो बनाने के लिए डिज़ाइन किया गया है। यह मॉडल वीडियो खंडों को डीनॉइज़ करने के लिए प्रशिक्षित है, जो कारण कालिक मॉडलिंग को सक्षम बनाता है और स्ट्रीमिंग जनरेशन का समर्थन करता है। MAGI-1 छवि-से-वीडियो (I2V) कार्यों में उत्कृष्ट है, कई एल्गोरिथम नवाचारों और समर्पित इंफ्रास्ट्रक्चर स्टैक के कारण उच्च कालिक स्थिरता और स्केलेबिलिटी प्रदान करता है।

MAGI-1 का अवलोकन

विशेषताविवरण
AI टूलMAGI-1
श्रेणीऑटोरेग्रेसिव वीडियो जनरेशन मॉडल
कार्यवीडियो जनरेशन
जनरेशन स्पीडउच्च-दक्षता वीडियो जनरेशन
रिसर्च पेपररिसर्च पेपर
आधिकारिक वेबसाइटGitHub - SandAI-org/MAGI-1

MAGI-1 AI: मॉडल विशेषताएं

Transformer-आधारित VAE

Transformer-आधारित आर्किटेक्चर के साथ एक वेरिएशनल ऑटोएनकोडर का उपयोग करता है, जो 8x स्थानिक और 4x कालिक कम्प्रेशन प्रदान करता है। इसके परिणामस्वरूप तेज डिकोडिंग समय और प्रतिस्पर्धी पुनर्निर्माण गुणवत्ता प्राप्त होती है।

ऑटो-रेग्रेसिव डीनॉइजिंग एल्गोरिथम

वीडियो को खंड-दर-खंड जनरेट करता है, कुशल वीडियो जनरेशन के लिए चार खंडों तक के समवर्ती प्रोसेसिंग की अनुमति देता है। प्रत्येक खंड (24 फ्रेम) को समग्र रूप से डीनॉइज़ किया जाता है, और वर्तमान खंड के डीनॉइजिंग के एक निश्चित स्तर तक पहुंचते ही अगला खंड शुरू हो जाता है।

MAGI-1 Features

डिफ्यूजन मॉडल आर्किटेक्चर

डिफ्यूजन Transformer पर निर्मित, Block-Causal Attention, Parallel Attention Block, QK-Norm और GQA जैसे नवाचारों को शामिल करता है। FFN में Sandwich Normalization, SwiGLU, और Softcap Modulation को शामिल करता है जो बड़े पैमाने पर प्रशिक्षण दक्षता और स्थिरता को बढ़ाता है।

MAGI-1 Features

डिस्टिलेशन एल्गोरिथम

वेरिएबल इन्फरेंस बजट का समर्थन करने वाले एकल वेलोसिटी-आधारित मॉडल को प्रशिक्षित करने के लिए शॉर्टकट डिस्टिलेशन का उपयोग करता है। यह दृष्टिकोण न्यूनतम फिडेलिटी हानि के साथ कुशल इन्फरेंस सुनिश्चित करता है।

MAGI-1: मॉडल जू

हम MAGI-1 के लिए पूर्व-प्रशिक्षित वेट्स प्रदान करते हैं, जिसमें 24B और 4.5B मॉडल के साथ-साथ संबंधित डिस्टिल और डिस्टिल+क्वांट मॉडल शामिल हैं। मॉडल वेट लिंक तालिका में दिखाए गए हैं।

मॉडललिंकअनुशंसित मशीन
T5T5-
MAGI-1-VAEMAGI-1-VAE-
MAGI-1-24BMAGI-1-24BH100/H800 * 8
MAGI-1-24B-distillMAGI-1-24B-distillH100/H800 * 8
MAGI-1-24B-distill+fp8_quantMAGI-1-24B-distill+fp8_quantH100/H800 * 4 या RTX 4090 * 8
MAGI-1-4.5BMAGI-1-4.5BRTX 4090 * 1

MAGI-1: मूल्यांकन परिणाम

मानवीय मूल्यांकन

MAGI-1 अन्य ओपन-सोर्स मॉडल जैसे Wan-2.1, , Hailuo, और HunyuanVideo को निर्देश पालन और गति गुणवत्ता के मामले में पीछे छोड़ देता है, जो इसे बंद-स्रोत वाणिज्यिक मॉडल का एक मजबूत प्रतिस्पर्धी बनाता है।

MAGI-1 Evaluation

भौतिक मूल्यांकन

MAGI-1 प्रदर्शित करता है भौतिक व्यवहार की भविष्यवाणी में श्रेष्ठ सटीकता वीडियो निरंतरता के माध्यम से, मौजूदा मॉडलों को महत्वपूर्ण रूप से पीछे छोड़ते हुए।

ModelPhys. IQ Score Spatial IoU Spatio Temporal Weighted Spatial IoU MSE
V2V Models
Magi (V2V)56.020.3670.2700.3040.005
VideoPoet (V2V)29.500.2040.1640.1370.010
I2V Models
Magi (I2V)30.230.2030.1510.1540.012
Kling1.6 (I2V)23.640.1970.0860.1440.025
VideoPoet (I2V)20.300.1410.1260.0870.012
Gen 3 (I2V)22.800.2010.1150.1160.015
Wan2.1 (I2V)20.890.1530.1000.1120.023
Sora (I2V)10.000.1380.0470.0630.030
GroundTruth100.00.6780.5350.5770.002

MAGI-1 को क्यों चुनें

MAGI-1 के साथ AI वीडियो निर्माण की अगली पीढ़ी का अनुभव करें, जहां अत्याधुनिक तकनीक ओपन-सोर्स पारदर्शिता से मिलती है।

निर्बाध वीडियो जनरेशन

फ्रेम-सटीक समय समायोजन के साथ अपनी सामग्री पर नियंत्रण रखें, यह सुनिश्चित करते हुए कि आपके वीडियो सटीक रचनात्मक विशिष्टताओं को पूरा करें।

सटीक टाइमलाइन नियंत्रण

स्पष्ट, विस्तृत विजुअल और सुचारू गति के साथ वीडियो बनाएं, एक पेशेवर और आकर्षक अनुभव सुनिश्चित करें।

बेहतर गति गुणवत्ता

हमारी उन्नत गति प्रसंस्करण के साथ जीवंत आंदोलन का अनुभव करें, रोबोटिक ट्रांजिशन को समाप्त करके वास्तव में प्राकृतिक दिखने वाले वीडियो बनाएं।

ओपन-सोर्स नवाचार

एक पारदर्शी पारिस्थितिकी तंत्र में शामिल हों जहां सभी मॉडल और शोध मुफ्त में उपलब्ध हैं, सहयोगात्मक सुधार और नवाचार को बढ़ावा देते हैं।

MAGI-1 के बारे में अक्सर पूछे जाने वाले प्रश्न

MAGI-1 क्या है?

MAGI-1 AI एक उन्नत ऑटोरेग्रेसिव वीडियो जनरेशन मॉडल है जो SandAI द्वारा विकसित किया गया है, जो ऑटोरेग्रेसिव तरीके से वीडियो खंडों की श्रृंखलाओं की भविष्यवाणी करके उच्च गुणवत्ता वाले वीडियो बनाने के लिए डिज़ाइन किया गया है। यह मॉडल वीडियो खंडों को डीनॉइज़ करने के लिए प्रशिक्षित है, जो कारण कालिक मॉडलिंग को सक्षम बनाता है और स्ट्रीमिंग जनरेशन का समर्थन करता है।

MAGI-1 की प्रमुख विशेषताएं क्या हैं?

MAGI-1 AI वीडियो जनरेशन मॉडल की विशेषताओं में तेज डिकोडिंग और प्रतिस्पर्धी पुनर्निर्माण गुणवत्ता के लिए Transformer-आधारित VAE, कुशल वीडियो जनरेशन के लिए ऑटो-रेग्रेसिव डीनॉइजिंग एल्गोरिथम, और एक डिफ्यूजन मॉडल आर्किटेक्चर शामिल है जो बड़े पैमाने पर प्रशिक्षण दक्षता और स्थिरता को बढ़ाता है। यह खंड-वार प्रॉम्प्टिंग के माध्यम से नियंत्रणीय जनरेशन का भी समर्थन करता है, जो सुचारू दृश्य ट्रांजिशन, लंबी-अवधि के संश्लेषण, और सूक्ष्म टेक्स्ट-संचालित नियंत्रण को सक्षम बनाता है।

MAGI-1 वीडियो जनरेशन को कैसे संभालता है?

MAGI-1 AI पूरे के बजाय खंड-दर-खंड वीडियो जनरेट करता है। प्रत्येक खंड (24 फ्रेम) को समग्र रूप से डीनॉइज़ किया जाता है, और वर्तमान खंड के डीनॉइजिंग के एक निश्चित स्तर तक पहुंचते ही अगला खंड शुरू हो जाता है। यह पाइपलाइन डिजाइन कुशल वीडियो जनरेशन के लिए चार खंडों तक के समवर्ती प्रोसेसिंग को सक्षम बनाता है।

MAGI-1 के लिए कौन से मॉडल वेरिएंट उपलब्ध हैं?

MAGI-1 वीडियो के लिए मॉडल वेरिएंट में उच्च-फिडेलिटी वीडियो जनरेशन के लिए अनुकूलित 24B मॉडल और संसाधन-प्रतिबंधित वातावरण के लिए उपयुक्त 4.5B मॉडल शामिल हैं। तेज इन्फरेंस के लिए डिस्टिल्ड और क्वांटाइज्ड मॉडल भी उपलब्ध हैं।

MAGI-1 मूल्यांकन में कैसा प्रदर्शन करता है?

MAGI-1 AI ओपन-सोर्स मॉडलों में अत्याधुनिक प्रदर्शन प्राप्त करता है, निर्देश पालन और गति गुणवत्ता में उत्कृष्ट है, जो इसे Kling1.6 जैसे बंद-स्रोत वाणिज्यिक मॉडलों का एक मजबूत संभावित प्रतिस्पर्धी बनाता है। यह वीडियो निरंतरता के माध्यम से भौतिक व्यवहार की भविष्यवाणी में श्रेष्ठ सटीकता भी प्रदर्शित करता है, सभी मौजूदा मॉडलों को महत्वपूर्ण रूप से पीछे छोड़ते हुए।

मैं MAGI-1 को कैसे चला सकता हूं?

MAGI-1 AI को Docker का उपयोग करके या सीधे सोर्स कोड से चलाया जा सकता है। आसान सेटअप के लिए Docker की सिफारिश की जाती है। उपयोगकर्ता प्रदान किए गए run.sh स्क्रिप्ट में पैरामीटर को संशोधित करके इनपुट और आउटपुट को नियंत्रित कर सकते हैं।

MAGI-1 के लिए लाइसेंस क्या है?

MAGI-1 को Apache License 2.0 के तहत जारी किया गया है।

MAGI-1 की 'अनंत वीडियो विस्तार' सुविधा क्या है?

MAGI-1 की 'अनंत वीडियो विस्तार' सुविधा वीडियो सामग्री के निर्बाध विस्तार की अनुमति देती है, 'सेकंड-स्तर समय अक्ष नियंत्रण' के साथ संयुक्त, जो उपयोगकर्ताओं को खंड-दर-खंड प्रॉम्प्टिंग के माध्यम से दृश्य ट्रांजिशन और परिष्कृत संपादन प्राप्त करने में सक्षम बनाती है, फिल्म निर्माण और कहानी कहने की जरूरतों को पूरा करती है।

MAGI-1 की ऑटोरेग्रेसिव आर्किटेक्चर का महत्व क्या है?

ऑटोरेग्रेसिव आर्किटेक्चर के प्राकृतिक लाभों के कारण, MAGI-1 वीडियो निरंतरता के माध्यम से भौतिक व्यवहार की भविष्यवाणी में बहुत अधिक श्रेष्ठ सटीकता प्राप्त करता है—सभी मौजूदा मॉडलों को महत्वपूर्ण रूप से पीछे छोड़ते हुए।

MAGI-1 के अनुप्रयोग क्या हैं?

MAGI-1 विभिन्न अनुप्रयोगों जैसे सामग्री निर्माण, गेम विकास, फिल्म पोस्ट-प्रोडक्शन और शिक्षा के लिए डिज़ाइन किया गया है। यह वीडियो जनरेशन के लिए एक शक्तिशाली टूल प्रदान करता है जिसका उपयोग कई परिदृश्यों में किया जा सकता है।