लार्ज लैंग्वेज मॉडल (LLMs) का प्रशिक्षण

26 Feb 2026

संदर्भ

AI इंपैक्ट समिट 2026 में, बंगलूरू स्थित स्टार्ट-अप सर्वम् AI ने दो लार्ज लैंग्वेज मॉडल (LLMs) जारी किए।

संबंधित तथ्य

  • दोनों मॉडलों को क्रमशः 35 अरब और 105 अरब पैरामीटर पर प्रशिक्षित किया गया और ये तुलनीय मॉडलों की तुलना में कम ऊर्जा तथा कम्प्यूटिंग संसाधन उपयोग करते थे।

2 6

लार्ज लैंग्वेज मॉडल (LLMs) के बारे में

  • लार्ज लैंग्वेज मॉडल (LLMs) उन्नत कृत्रिम बुद्धिमत्ता प्रणाली हैं, जिन्हें मानव-सदृश टेक्स्ट को समझने और उत्पन्न करने के लिए डिजाइन किया गया है।
    • ये विशाल मात्रा में लिखित डेटा से सीखते हैं ताकि किसी वाक्य में अगला शब्द अनुमानित किया जा सके या प्रश्नों के लिए संगठित तथा सुसंगत उत्तर दिए जा सकें।
  • आर्किटेक्चर और प्रशिक्षण: LLMs डीप लर्निंग और ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करते हैं, जैसे कि जनरेटिव प्री-ट्रेंड ट्रांसफॉर्मर (GPT), जो क्रमिक टेक्स्ट संबंधी डेटा को संसाधित करने के लिए डिजाइन किए गए हैं।
    • इनमें कई न्यूरल नेटवर्क लेयर और संदर्भ संबंधी समझ के लिए ‘अटेंशन मैकेनिज्म’ पाई जाती है।

लार्ज लैंग्वेज मॉडलों (LLMs) का प्रशिक्षण

  • प्रशिक्षण प्रक्रिया: LLMs विशाल ग्राफिक्स प्रोसेसिंग यूनिट (GPU) क्लस्टर्स पर प्रशिक्षित किए जाते हैं, जो बड़ी मात्रा में डेटा संसाधित करने के लिए आवश्यक कंप्यूटिंग शक्ति प्रदान करते हैं।
    • मॉडल पिछले शब्दों द्वारा प्रदान किए गए संदर्भ के आधार पर वाक्य में अगला शब्द अनुमानित करना सीखता है।
    • टोकनाइजेशन और एम्बेडिंग्स: शब्दों को टोकन में विभाजित किया जाता है, जिन्हें फिर संदर्भ का प्रतिनिधित्व करने वाले संख्यात्मक एंबेडिंग्स में परिवर्तित किया जाता है।
    • टेक्स्ट कॉर्पस: LLMs व्यापक टेक्स्ट संबंधी डेटा पर प्रशिक्षित किए जाते हैं, जिससे वे व्याकरण, अर्थ और अवधारणात्मक संबंध सीखते हैं।
    • लर्निंग की तकनीकें: वे जीरो-शॉट और सेल्फ-सुपरवाइज्ड लर्निंग (Self-supervised learning) का उपयोग करते हैं, ताकि डेटा से सामान्यीकृत सीख हासिल की जा सके।
      • जीरो-शॉट लर्निंग का अर्थ है कि मॉडल उन कार्यों या डेटा के बारे में अनुमान लगाने में सक्षम होता है, जिसे उसने प्रशिक्षण के दौरान नहीं देखा।
    • सटीकता बढ़ाना: प्रदर्शन में सुधार के लिए प्रॉम्प्ट इंजीनियरिंग, फाइन-ट्यूनिंग, और रीइन्फोर्समेंट लर्निंग विद ह्यूमन फीडबैक (RLHF) किया जाता है ताकि पूर्वाग्रह और त्रुटियों को कम किया जा सके।

लार्ज लैंग्वेज मॉडलों (LLMs) के प्रशिक्षण में चुनौतियाँ

  • सीमित पूँजी: चूँकि पूँजी सीमित है, भारतीय कंपनियों द्वारा भारतीय उपयोगकर्ताओं के लिए LLMs प्रशिक्षित करना चुनौतीपूर्ण हो सकता है, विशेष रूप से यदि इसके लिए कोई तत्काल व्यावसायिक उपयोग मामला न हो।
    • उदाहरण के लिए, 70-बिलियन-पैरामीटर वाले LLMs का प्रशिक्षण लगभग 6 मिलियन डॉलर की लागत वाला हो सकता है, जो शुरुआती चरण की भारतीय स्टार्ट-अप्स के लिए बिना निकट-अवधि लाभ की गारंटी के अत्यधिक महंगा है।
  • उच्च पूँँजी तीव्रता: LLMs को प्रशिक्षित करना और संचालित करना महँगे GPU क्लस्टर्स और विशाल बिजली खपत की माँग करता है, जिसकी लागत मिलियन डॉलर में होती है।
    • उदाहरण के लिए, जीपीटी-3 का प्रशिक्षण 4–5 मिलियन डॉलर की कंप्यूट लागत में हुआ, जबकि जीपीटी-4 के लिए रिपोर्ट के अनुसार, कई मिलियन डॉलर और हजारों GPU महीनों तक चलाए गए।
  • भारतीय भाषा संबंधी डेटा की कमी: इंटरनेट डेटा अंग्रेजी, यूरोपीय, कोरियाई और जापानी सामग्री द्वारा प्रभुत्वित है, जिससे भारतीय भाषाएँ कम प्रतिनिधित्व वाली हैं।
    • उदाहरण के लिए, वेब सामग्री में अंग्रेजी का हिस्सा 50% से अधिक है, जबकि अधिकांश भारतीय भाषाएँ प्रत्येक में 1% से कम हैं, जिससे कॉमन क्रॉल जैसे डेटासेट में न्यूनतम प्रतिनिधित्व होता है।
  • भारतीय भाषाओं में प्रदर्शन अंतर: सीमित मूल डेटासेट के कारण, LLMs भारतीय भाषाओं में प्रायः अंग्रेजी की तुलना में खराब प्रदर्शन करते हैं।
  • अधिक टोकन खपत: कई मॉडल भारतीय भाषा इनपुट को बेहतर प्रसंस्करण के लिए अंग्रेजी में अनुवादित करते हैं और फिर आउटपुट को वापस अनुवादित करते हैं, जिससे टोकन उपयोग तथा अनुमान लागत बढ़ जाती है।
    • उदाहरण के लिए, 10-शब्द का अंग्रेजी वाक्य लगभग 12–15 टोकन उपयोग कर सकता है, जबकि वही वाक्य टोकनाइजेशन की अक्षमताओं के कारण हिंदी (देवनागरी लिपि) में 20–25 टोकन की खपत कर सकता है।

सरकारी समर्थन और संस्थागत प्रयास

  • इंडियाAI मिशन सब्सिडी: इंडियाAI मिशन ने भारतीय डेटा सेंटर (जैसे-Yotta) में 36,000 से अधिक GPU की व्यवस्था की है, ताकि शोधकर्ताओं और स्टार्ट-अप्स को सस्ती कंप्यूट पहुँच प्रदान की जा सके।
  • सर्वम् को प्रत्यक्ष समर्थन: सरकार ने अपने साझा कंप्यूट क्लस्टर से सर्वम् को 4,096 GPU आवंटित किए, जिसमें सब्सिडी लगभग ₹100 करोड़ आँकी गई है।
  • इलेक्ट्रॉनिक्स और सूचना प्रौद्योगिकी मंत्रालय (MeitY): यह घरेलू LLMs को बढ़ावा देता है, ताकि मॉडल प्रशिक्षण में कुशल प्रतिभा तैयार हो सके और भारतीय भाषाओं तथा सामाजिक-सांस्कृतिक संदर्भों में समग्र भारतीय AI इकोसिस्टम को मजबूत किया जा सके।

मिक्सचर ऑफ एक्सपर्ट्स (MoE) के बारे में

  • मिश्रित विशेषज्ञ (MoE) AI मॉडलों को डिजाइन करने की एक विधि है, जिसमें हर प्रश्न के लिए पूरे मॉडल का उपयोग करने के बजाय केवल आवश्यक भागों का ही उपयोग किया जाता है।
  • उदाहरण के लिए
    • कल्पना कीजिए एक विद्यालय है, जिसमें कई शिक्षक (विशेषज्ञ) हैं।
    • यदि कोई छात्र गणित का प्रश्न पूछता है, तो केवल गणित का शिक्षक उत्तर देता है, इतिहास या विज्ञान के शिक्षक नहीं।
  • इसी प्रकार
    • एक सामान्य AI मॉडल में, प्रत्येक प्रश्न के लिए सभी भाग कार्य करते हैं, जिससे अधिक ऊर्जा और धन का उपयोग होता है।
    • एक MoE मॉडल में, केवल कुछ विशेषीकृत भाग सक्रिय होते हैं, जिससे यह तीव्र और सस्ता बनता है।

आगे की राह

  • भारतीय भाषा डेटासेट का विस्तार: हिंदी, तमिल, बंगाली, मराठी और अन्य भारतीय भाषाओं में उच्च-गुणवत्ता वाले, एनोटेटेड कॉर्पस का निर्माण सार्वजनिक–निजी भागीदारी तथा भाषिणी जैसी पहलों के माध्यम से किया जाए।
  • केंद्रित क्षेत्रीय मॉडल: केवल वैश्विक अग्रणी मॉडलों से प्रतिस्पर्द्धा करने के बजाय शासन, शिक्षा, स्वास्थ्य, कृषि और विधि जैसे क्षेत्रों के लिए छोटे, डोमेन-विशिष्ट LLMs विकसित किए जाएँ।
  • उद्योग–शैक्षणिक सहयोग: आईआईटी, आईआईआईटी, स्टार्ट-अप्स और MeitY के बीच साझेदारी को मजबूत किया जाए, ताकि कुशल AI प्रतिभा और शोध क्षमता विकसित की जा सके।
  • ऊर्जा दक्ष आर्किटेक्चर: प्रशिक्षण और अनुमान लागत को कम करने के लिए मिक्सचर ऑफ एक्सपर्ट्स (MoE) तथा मॉडल कंप्रेशन जैसी विधियों को अपनाया जाए।

LLMs संबंधी स्वदेशी प्रयास

  • भारतजेन (आईआईटी बॉम्बे-इनक्यूबेटेड): शिक्षा और स्वास्थ्य जैसे क्षेत्रों के लिए लक्षित एक बहुभाषी 17-बिलियन-पैरामीटर मॉडल प्रशिक्षित किया।
  • Gnani.ai: स्पीच आधारित AI अनुप्रयोगों पर केंद्रित एक छोटा टेक्स्ट-टू-स्पीच मॉडल लॉन्च किया।

Need help preparing for UPSC or State PSCs?

Connect with our experts to get free counselling & start preparing

Aiming for UPSC?

Download Our App

      
Quick Revise Now !
AVAILABLE FOR DOWNLOAD SOON
UDAAN PRELIMS WALLAH
Comprehensive coverage with a concise format
Integration of PYQ within the booklet
Designed as per recent trends of Prelims questions
हिंदी में भी उपलब्ध
Quick Revise Now !
UDAAN PRELIMS WALLAH
Comprehensive coverage with a concise format
Integration of PYQ within the booklet
Designed as per recent trends of Prelims questions
हिंदी में भी उपलब्ध

<div class="new-fform">







    </div>

    Subscribe our Newsletter
    Sign up now for our exclusive newsletter and be the first to know about our latest Initiatives, Quality Content, and much more.
    *Promise! We won't spam you.
    Yes! I want to Subscribe.