100% तक छात्रवृत्ति जीतें

रजिस्टर करें

लार्ज लैंग्वेज मॉडल (LLMs) का प्रशिक्षण

Lokesh Pal February 27, 2026 04:22 9 0

संदर्भ

AI इंपैक्ट समिट 2026 में, बंगलूरू स्थित स्टार्ट-अप सर्वम् AI ने दो लार्ज लैंग्वेज मॉडल (LLMs) जारी किए।

संबंधित तथ्य

  • दोनों मॉडलों को क्रमशः 35 अरब और 105 अरब पैरामीटर पर प्रशिक्षित किया गया और ये तुलनीय मॉडलों की तुलना में कम ऊर्जा तथा कम्प्यूटिंग संसाधन उपयोग करते थे।

लार्ज लैंग्वेज मॉडल (LLMs) के बारे में

  • लार्ज लैंग्वेज मॉडल (LLMs) उन्नत कृत्रिम बुद्धिमत्ता प्रणाली हैं, जिन्हें मानव-सदृश टेक्स्ट को समझने और उत्पन्न करने के लिए डिजाइन किया गया है।
    • ये विशाल मात्रा में लिखित डेटा से सीखते हैं ताकि किसी वाक्य में अगला शब्द अनुमानित किया जा सके या प्रश्नों के लिए संगठित तथा सुसंगत उत्तर दिए जा सकें।
  • आर्किटेक्चर और प्रशिक्षण: LLMs डीप लर्निंग और ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करते हैं, जैसे कि जनरेटिव प्री-ट्रेंड ट्रांसफॉर्मर (GPT), जो क्रमिक टेक्स्ट संबंधी डेटा को संसाधित करने के लिए डिजाइन किए गए हैं।
    • इनमें कई न्यूरल नेटवर्क लेयर और संदर्भ संबंधी समझ के लिए ‘अटेंशन मैकेनिज्म’ पाई जाती है।

लार्ज लैंग्वेज मॉडलों (LLMs) का प्रशिक्षण

  • प्रशिक्षण प्रक्रिया: LLMs विशाल ग्राफिक्स प्रोसेसिंग यूनिट (GPU) क्लस्टर्स पर प्रशिक्षित किए जाते हैं, जो बड़ी मात्रा में डेटा संसाधित करने के लिए आवश्यक कंप्यूटिंग शक्ति प्रदान करते हैं।
    • मॉडल पिछले शब्दों द्वारा प्रदान किए गए संदर्भ के आधार पर वाक्य में अगला शब्द अनुमानित करना सीखता है।
    • टोकनाइजेशन और एम्बेडिंग्स: शब्दों को टोकन में विभाजित किया जाता है, जिन्हें फिर संदर्भ का प्रतिनिधित्व करने वाले संख्यात्मक एंबेडिंग्स में परिवर्तित किया जाता है।
    • टेक्स्ट कॉर्पस: LLMs व्यापक टेक्स्ट संबंधी डेटा पर प्रशिक्षित किए जाते हैं, जिससे वे व्याकरण, अर्थ और अवधारणात्मक संबंध सीखते हैं।
    • लर्निंग की तकनीकें: वे जीरो-शॉट और सेल्फ-सुपरवाइज्ड लर्निंग (Self-supervised learning) का उपयोग करते हैं, ताकि डेटा से सामान्यीकृत सीख हासिल की जा सके।
      • जीरो-शॉट लर्निंग का अर्थ है कि मॉडल उन कार्यों या डेटा के बारे में अनुमान लगाने में सक्षम होता है, जिसे उसने प्रशिक्षण के दौरान नहीं देखा।
    • सटीकता बढ़ाना: प्रदर्शन में सुधार के लिए प्रॉम्प्ट इंजीनियरिंग, फाइन-ट्यूनिंग, और रीइन्फोर्समेंट लर्निंग विद ह्यूमन फीडबैक (RLHF) किया जाता है ताकि पूर्वाग्रह और त्रुटियों को कम किया जा सके।

लार्ज लैंग्वेज मॉडलों (LLMs) के प्रशिक्षण में चुनौतियाँ

  • सीमित पूँजी: चूँकि पूँजी सीमित है, भारतीय कंपनियों द्वारा भारतीय उपयोगकर्ताओं के लिए LLMs प्रशिक्षित करना चुनौतीपूर्ण हो सकता है, विशेष रूप से यदि इसके लिए कोई तत्काल व्यावसायिक उपयोग मामला न हो।
    • उदाहरण के लिए, 70-बिलियन-पैरामीटर वाले LLMs का प्रशिक्षण लगभग 6 मिलियन डॉलर की लागत वाला हो सकता है, जो शुरुआती चरण की भारतीय स्टार्ट-अप्स के लिए बिना निकट-अवधि लाभ की गारंटी के अत्यधिक महंगा है।
  • उच्च पूँँजी तीव्रता: LLMs को प्रशिक्षित करना और संचालित करना महँगे GPU क्लस्टर्स और विशाल बिजली खपत की माँग करता है, जिसकी लागत मिलियन डॉलर में होती है।
    • उदाहरण के लिए, जीपीटी-3 का प्रशिक्षण 4–5 मिलियन डॉलर की कंप्यूट लागत में हुआ, जबकि जीपीटी-4 के लिए रिपोर्ट के अनुसार, कई मिलियन डॉलर और हजारों GPU महीनों तक चलाए गए।
  • भारतीय भाषा संबंधी डेटा की कमी: इंटरनेट डेटा अंग्रेजी, यूरोपीय, कोरियाई और जापानी सामग्री द्वारा प्रभुत्वित है, जिससे भारतीय भाषाएँ कम प्रतिनिधित्व वाली हैं।
    • उदाहरण के लिए, वेब सामग्री में अंग्रेजी का हिस्सा 50% से अधिक है, जबकि अधिकांश भारतीय भाषाएँ प्रत्येक में 1% से कम हैं, जिससे कॉमन क्रॉल जैसे डेटासेट में न्यूनतम प्रतिनिधित्व होता है।
  • भारतीय भाषाओं में प्रदर्शन अंतर: सीमित मूल डेटासेट के कारण, LLMs भारतीय भाषाओं में प्रायः अंग्रेजी की तुलना में खराब प्रदर्शन करते हैं।
  • अधिक टोकन खपत: कई मॉडल भारतीय भाषा इनपुट को बेहतर प्रसंस्करण के लिए अंग्रेजी में अनुवादित करते हैं और फिर आउटपुट को वापस अनुवादित करते हैं, जिससे टोकन उपयोग तथा अनुमान लागत बढ़ जाती है।
    • उदाहरण के लिए, 10-शब्द का अंग्रेजी वाक्य लगभग 12–15 टोकन उपयोग कर सकता है, जबकि वही वाक्य टोकनाइजेशन की अक्षमताओं के कारण हिंदी (देवनागरी लिपि) में 20–25 टोकन की खपत कर सकता है।

सरकारी समर्थन और संस्थागत प्रयास

  • इंडियाAI मिशन सब्सिडी: इंडियाAI मिशन ने भारतीय डेटा सेंटर (जैसे-Yotta) में 36,000 से अधिक GPU की व्यवस्था की है, ताकि शोधकर्ताओं और स्टार्ट-अप्स को सस्ती कंप्यूट पहुँच प्रदान की जा सके।
  • सर्वम् को प्रत्यक्ष समर्थन: सरकार ने अपने साझा कंप्यूट क्लस्टर से सर्वम् को 4,096 GPU आवंटित किए, जिसमें सब्सिडी लगभग ₹100 करोड़ आँकी गई है।
  • इलेक्ट्रॉनिक्स और सूचना प्रौद्योगिकी मंत्रालय (MeitY): यह घरेलू LLMs को बढ़ावा देता है, ताकि मॉडल प्रशिक्षण में कुशल प्रतिभा तैयार हो सके और भारतीय भाषाओं तथा सामाजिक-सांस्कृतिक संदर्भों में समग्र भारतीय AI इकोसिस्टम को मजबूत किया जा सके।

मिक्सचर ऑफ एक्सपर्ट्स (MoE) के बारे में

  • मिश्रित विशेषज्ञ (MoE) AI मॉडलों को डिजाइन करने की एक विधि है, जिसमें हर प्रश्न के लिए पूरे मॉडल का उपयोग करने के बजाय केवल आवश्यक भागों का ही उपयोग किया जाता है।
  • उदाहरण के लिए
    • कल्पना कीजिए एक विद्यालय है, जिसमें कई शिक्षक (विशेषज्ञ) हैं।
    • यदि कोई छात्र गणित का प्रश्न पूछता है, तो केवल गणित का शिक्षक उत्तर देता है, इतिहास या विज्ञान के शिक्षक नहीं।
  • इसी प्रकार
    • एक सामान्य AI मॉडल में, प्रत्येक प्रश्न के लिए सभी भाग कार्य करते हैं, जिससे अधिक ऊर्जा और धन का उपयोग होता है।
    • एक MoE मॉडल में, केवल कुछ विशेषीकृत भाग सक्रिय होते हैं, जिससे यह तीव्र और सस्ता बनता है।

आगे की राह

  • भारतीय भाषा डेटासेट का विस्तार: हिंदी, तमिल, बंगाली, मराठी और अन्य भारतीय भाषाओं में उच्च-गुणवत्ता वाले, एनोटेटेड कॉर्पस का निर्माण सार्वजनिक–निजी भागीदारी तथा भाषिणी जैसी पहलों के माध्यम से किया जाए।
  • केंद्रित क्षेत्रीय मॉडल: केवल वैश्विक अग्रणी मॉडलों से प्रतिस्पर्द्धा करने के बजाय शासन, शिक्षा, स्वास्थ्य, कृषि और विधि जैसे क्षेत्रों के लिए छोटे, डोमेन-विशिष्ट LLMs विकसित किए जाएँ।
  • उद्योग–शैक्षणिक सहयोग: आईआईटी, आईआईआईटी, स्टार्ट-अप्स और MeitY के बीच साझेदारी को मजबूत किया जाए, ताकि कुशल AI प्रतिभा और शोध क्षमता विकसित की जा सके।
  • ऊर्जा दक्ष आर्किटेक्चर: प्रशिक्षण और अनुमान लागत को कम करने के लिए मिक्सचर ऑफ एक्सपर्ट्स (MoE) तथा मॉडल कंप्रेशन जैसी विधियों को अपनाया जाए।

LLMs संबंधी स्वदेशी प्रयास

  • भारतजेन (आईआईटी बॉम्बे-इनक्यूबेटेड): शिक्षा और स्वास्थ्य जैसे क्षेत्रों के लिए लक्षित एक बहुभाषी 17-बिलियन-पैरामीटर मॉडल प्रशिक्षित किया।
  • Gnani.ai: स्पीच आधारित AI अनुप्रयोगों पर केंद्रित एक छोटा टेक्स्ट-टू-स्पीच मॉडल लॉन्च किया।

Final Result – CIVIL SERVICES EXAMINATION, 2023. PWOnlyIAS is NOW at three new locations Mukherjee Nagar ,Lucknow and Patna , Explore all centers Download UPSC Mains 2023 Question Papers PDF Free Initiative links -1) Download Prahaar 3.0 for Mains Current Affairs PDF both in English and Hindi 2) Daily Main Answer Writing , 3) Daily Current Affairs , Editorial Analysis and quiz , 4) PDF Downloads UPSC Prelims 2023 Trend Analysis cut-off and answer key

THE MOST
LEARNING PLATFORM

Learn From India's Best Faculty

      

Final Result – CIVIL SERVICES EXAMINATION, 2023. PWOnlyIAS is NOW at three new locations Mukherjee Nagar ,Lucknow and Patna , Explore all centers Download UPSC Mains 2023 Question Papers PDF Free Initiative links -1) Download Prahaar 3.0 for Mains Current Affairs PDF both in English and Hindi 2) Daily Main Answer Writing , 3) Daily Current Affairs , Editorial Analysis and quiz , 4) PDF Downloads UPSC Prelims 2023 Trend Analysis cut-off and answer key

<div class="new-fform">







    </div>

    Subscribe our Newsletter
    Sign up now for our exclusive newsletter and be the first to know about our latest Initiatives, Quality Content, and much more.
    *Promise! We won't spam you.
    Yes! I want to Subscribe.