संदर्भ
AI इंपैक्ट समिट 2026 में, बंगलूरू स्थित स्टार्ट-अप सर्वम् AI ने दो लार्ज लैंग्वेज मॉडल (LLMs) जारी किए।
संबंधित तथ्य
- दोनों मॉडलों को क्रमशः 35 अरब और 105 अरब पैरामीटर पर प्रशिक्षित किया गया और ये तुलनीय मॉडलों की तुलना में कम ऊर्जा तथा कम्प्यूटिंग संसाधन उपयोग करते थे।

लार्ज लैंग्वेज मॉडल (LLMs) के बारे में
- लार्ज लैंग्वेज मॉडल (LLMs) उन्नत कृत्रिम बुद्धिमत्ता प्रणाली हैं, जिन्हें मानव-सदृश टेक्स्ट को समझने और उत्पन्न करने के लिए डिजाइन किया गया है।
- ये विशाल मात्रा में लिखित डेटा से सीखते हैं ताकि किसी वाक्य में अगला शब्द अनुमानित किया जा सके या प्रश्नों के लिए संगठित तथा सुसंगत उत्तर दिए जा सकें।
- आर्किटेक्चर और प्रशिक्षण: LLMs डीप लर्निंग और ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करते हैं, जैसे कि जनरेटिव प्री-ट्रेंड ट्रांसफॉर्मर (GPT), जो क्रमिक टेक्स्ट संबंधी डेटा को संसाधित करने के लिए डिजाइन किए गए हैं।
- इनमें कई न्यूरल नेटवर्क लेयर और संदर्भ संबंधी समझ के लिए ‘अटेंशन मैकेनिज्म’ पाई जाती है।
लार्ज लैंग्वेज मॉडलों (LLMs) का प्रशिक्षण
- प्रशिक्षण प्रक्रिया: LLMs विशाल ग्राफिक्स प्रोसेसिंग यूनिट (GPU) क्लस्टर्स पर प्रशिक्षित किए जाते हैं, जो बड़ी मात्रा में डेटा संसाधित करने के लिए आवश्यक कंप्यूटिंग शक्ति प्रदान करते हैं।
- मॉडल पिछले शब्दों द्वारा प्रदान किए गए संदर्भ के आधार पर वाक्य में अगला शब्द अनुमानित करना सीखता है।
- टोकनाइजेशन और एम्बेडिंग्स: शब्दों को टोकन में विभाजित किया जाता है, जिन्हें फिर संदर्भ का प्रतिनिधित्व करने वाले संख्यात्मक एंबेडिंग्स में परिवर्तित किया जाता है।
- टेक्स्ट कॉर्पस: LLMs व्यापक टेक्स्ट संबंधी डेटा पर प्रशिक्षित किए जाते हैं, जिससे वे व्याकरण, अर्थ और अवधारणात्मक संबंध सीखते हैं।
- लर्निंग की तकनीकें: वे जीरो-शॉट और सेल्फ-सुपरवाइज्ड लर्निंग (Self-supervised learning) का उपयोग करते हैं, ताकि डेटा से सामान्यीकृत सीख हासिल की जा सके।
- जीरो-शॉट लर्निंग का अर्थ है कि मॉडल उन कार्यों या डेटा के बारे में अनुमान लगाने में सक्षम होता है, जिसे उसने प्रशिक्षण के दौरान नहीं देखा।
- सटीकता बढ़ाना: प्रदर्शन में सुधार के लिए प्रॉम्प्ट इंजीनियरिंग, फाइन-ट्यूनिंग, और रीइन्फोर्समेंट लर्निंग विद ह्यूमन फीडबैक (RLHF) किया जाता है ताकि पूर्वाग्रह और त्रुटियों को कम किया जा सके।
लार्ज लैंग्वेज मॉडलों (LLMs) के प्रशिक्षण में चुनौतियाँ
- सीमित पूँजी: चूँकि पूँजी सीमित है, भारतीय कंपनियों द्वारा भारतीय उपयोगकर्ताओं के लिए LLMs प्रशिक्षित करना चुनौतीपूर्ण हो सकता है, विशेष रूप से यदि इसके लिए कोई तत्काल व्यावसायिक उपयोग मामला न हो।
- उदाहरण के लिए, 70-बिलियन-पैरामीटर वाले LLMs का प्रशिक्षण लगभग 6 मिलियन डॉलर की लागत वाला हो सकता है, जो शुरुआती चरण की भारतीय स्टार्ट-अप्स के लिए बिना निकट-अवधि लाभ की गारंटी के अत्यधिक महंगा है।
- उच्च पूँँजी तीव्रता: LLMs को प्रशिक्षित करना और संचालित करना महँगे GPU क्लस्टर्स और विशाल बिजली खपत की माँग करता है, जिसकी लागत मिलियन डॉलर में होती है।
- उदाहरण के लिए, जीपीटी-3 का प्रशिक्षण 4–5 मिलियन डॉलर की कंप्यूट लागत में हुआ, जबकि जीपीटी-4 के लिए रिपोर्ट के अनुसार, कई मिलियन डॉलर और हजारों GPU महीनों तक चलाए गए।
- भारतीय भाषा संबंधी डेटा की कमी: इंटरनेट डेटा अंग्रेजी, यूरोपीय, कोरियाई और जापानी सामग्री द्वारा प्रभुत्वित है, जिससे भारतीय भाषाएँ कम प्रतिनिधित्व वाली हैं।
- उदाहरण के लिए, वेब सामग्री में अंग्रेजी का हिस्सा 50% से अधिक है, जबकि अधिकांश भारतीय भाषाएँ प्रत्येक में 1% से कम हैं, जिससे कॉमन क्रॉल जैसे डेटासेट में न्यूनतम प्रतिनिधित्व होता है।
- भारतीय भाषाओं में प्रदर्शन अंतर: सीमित मूल डेटासेट के कारण, LLMs भारतीय भाषाओं में प्रायः अंग्रेजी की तुलना में खराब प्रदर्शन करते हैं।
- अधिक टोकन खपत: कई मॉडल भारतीय भाषा इनपुट को बेहतर प्रसंस्करण के लिए अंग्रेजी में अनुवादित करते हैं और फिर आउटपुट को वापस अनुवादित करते हैं, जिससे टोकन उपयोग तथा अनुमान लागत बढ़ जाती है।
- उदाहरण के लिए, 10-शब्द का अंग्रेजी वाक्य लगभग 12–15 टोकन उपयोग कर सकता है, जबकि वही वाक्य टोकनाइजेशन की अक्षमताओं के कारण हिंदी (देवनागरी लिपि) में 20–25 टोकन की खपत कर सकता है।
सरकारी समर्थन और संस्थागत प्रयास
- इंडियाAI मिशन सब्सिडी: इंडियाAI मिशन ने भारतीय डेटा सेंटर (जैसे-Yotta) में 36,000 से अधिक GPU की व्यवस्था की है, ताकि शोधकर्ताओं और स्टार्ट-अप्स को सस्ती कंप्यूट पहुँच प्रदान की जा सके।
- सर्वम् को प्रत्यक्ष समर्थन: सरकार ने अपने साझा कंप्यूट क्लस्टर से सर्वम् को 4,096 GPU आवंटित किए, जिसमें सब्सिडी लगभग ₹100 करोड़ आँकी गई है।
- इलेक्ट्रॉनिक्स और सूचना प्रौद्योगिकी मंत्रालय (MeitY): यह घरेलू LLMs को बढ़ावा देता है, ताकि मॉडल प्रशिक्षण में कुशल प्रतिभा तैयार हो सके और भारतीय भाषाओं तथा सामाजिक-सांस्कृतिक संदर्भों में समग्र भारतीय AI इकोसिस्टम को मजबूत किया जा सके।
|
मिक्सचर ऑफ एक्सपर्ट्स (MoE) के बारे में
- मिश्रित विशेषज्ञ (MoE) AI मॉडलों को डिजाइन करने की एक विधि है, जिसमें हर प्रश्न के लिए पूरे मॉडल का उपयोग करने के बजाय केवल आवश्यक भागों का ही उपयोग किया जाता है।
- उदाहरण के लिए
- कल्पना कीजिए एक विद्यालय है, जिसमें कई शिक्षक (विशेषज्ञ) हैं।
- यदि कोई छात्र गणित का प्रश्न पूछता है, तो केवल गणित का शिक्षक उत्तर देता है, इतिहास या विज्ञान के शिक्षक नहीं।
- इसी प्रकार
- एक सामान्य AI मॉडल में, प्रत्येक प्रश्न के लिए सभी भाग कार्य करते हैं, जिससे अधिक ऊर्जा और धन का उपयोग होता है।
- एक MoE मॉडल में, केवल कुछ विशेषीकृत भाग सक्रिय होते हैं, जिससे यह तीव्र और सस्ता बनता है।
आगे की राह
- भारतीय भाषा डेटासेट का विस्तार: हिंदी, तमिल, बंगाली, मराठी और अन्य भारतीय भाषाओं में उच्च-गुणवत्ता वाले, एनोटेटेड कॉर्पस का निर्माण सार्वजनिक–निजी भागीदारी तथा भाषिणी जैसी पहलों के माध्यम से किया जाए।
- केंद्रित क्षेत्रीय मॉडल: केवल वैश्विक अग्रणी मॉडलों से प्रतिस्पर्द्धा करने के बजाय शासन, शिक्षा, स्वास्थ्य, कृषि और विधि जैसे क्षेत्रों के लिए छोटे, डोमेन-विशिष्ट LLMs विकसित किए जाएँ।
- उद्योग–शैक्षणिक सहयोग: आईआईटी, आईआईआईटी, स्टार्ट-अप्स और MeitY के बीच साझेदारी को मजबूत किया जाए, ताकि कुशल AI प्रतिभा और शोध क्षमता विकसित की जा सके।
- ऊर्जा दक्ष आर्किटेक्चर: प्रशिक्षण और अनुमान लागत को कम करने के लिए मिक्सचर ऑफ एक्सपर्ट्स (MoE) तथा मॉडल कंप्रेशन जैसी विधियों को अपनाया जाए।
LLMs संबंधी स्वदेशी प्रयास
- भारतजेन (आईआईटी बॉम्बे-इनक्यूबेटेड): शिक्षा और स्वास्थ्य जैसे क्षेत्रों के लिए लक्षित एक बहुभाषी 17-बिलियन-पैरामीटर मॉडल प्रशिक्षित किया।
- Gnani.ai: स्पीच आधारित AI अनुप्रयोगों पर केंद्रित एक छोटा टेक्स्ट-टू-स्पीच मॉडल लॉन्च किया।
|