लार्ज लैंग्वेज मॉडल (LLMs) का प्रशिक्षण

26 Feb 2026

संदर्भ

AI इंपैक्ट समिट 2026 में, बंगलूरू स्थित स्टार्ट-अप सर्वम् AI ने दो लार्ज लैंग्वेज मॉडल (LLMs) जारी किए।

लार्ज लैंग्वेज मॉडल (LLMs) के बारे में

लार्ज लैंग्वेज मॉडल (LLMs) उन्नत कृत्रिम बुद्धिमत्ता प्रणाली हैं, जिन्हें मानव-सदृश टेक्स्ट को समझने और उत्पन्न करने के लिए डिजाइन किया गया है।
- ये विशाल मात्रा में लिखित डेटा से सीखते हैं ताकि किसी वाक्य में अगला शब्द अनुमानित किया जा सके या प्रश्नों के लिए संगठित तथा सुसंगत उत्तर दिए जा सकें।
आर्किटेक्चर और प्रशिक्षण: LLMs डीप लर्निंग और ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करते हैं, जैसे कि जनरेटिव प्री-ट्रेंड ट्रांसफॉर्मर (GPT), जो क्रमिक टेक्स्ट संबंधी डेटा को संसाधित करने के लिए डिजाइन किए गए हैं।
- इनमें कई न्यूरल नेटवर्क लेयर और संदर्भ संबंधी समझ के लिए ‘अटेंशन मैकेनिज्म’ पाई जाती है।

लार्ज लैंग्वेज मॉडलों (LLMs) का प्रशिक्षण

प्रशिक्षण प्रक्रिया: LLMs विशाल ग्राफिक्स प्रोसेसिंग यूनिट (GPU) क्लस्टर्स पर प्रशिक्षित किए जाते हैं, जो बड़ी मात्रा में डेटा संसाधित करने के लिए आवश्यक कंप्यूटिंग शक्ति प्रदान करते हैं।
- मॉडल पिछले शब्दों द्वारा प्रदान किए गए संदर्भ के आधार पर वाक्य में अगला शब्द अनुमानित करना सीखता है।
- टोकनाइजेशन और एम्बेडिंग्स: शब्दों को टोकन में विभाजित किया जाता है, जिन्हें फिर संदर्भ का प्रतिनिधित्व करने वाले संख्यात्मक एंबेडिंग्स में परिवर्तित किया जाता है।
- टेक्स्ट कॉर्पस: LLMs व्यापक टेक्स्ट संबंधी डेटा पर प्रशिक्षित किए जाते हैं, जिससे वे व्याकरण, अर्थ और अवधारणात्मक संबंध सीखते हैं।
- लर्निंग की तकनीकें: वे जीरो-शॉट और सेल्फ-सुपरवाइज्ड लर्निंग (Self-supervised learning) का उपयोग करते हैं, ताकि डेटा से सामान्यीकृत सीख हासिल की जा सके।
  - जीरो-शॉट लर्निंग का अर्थ है कि मॉडल उन कार्यों या डेटा के बारे में अनुमान लगाने में सक्षम होता है, जिसे उसने प्रशिक्षण के दौरान नहीं देखा।
- सटीकता बढ़ाना: प्रदर्शन में सुधार के लिए प्रॉम्प्ट इंजीनियरिंग, फाइन-ट्यूनिंग, और रीइन्फोर्समेंट लर्निंग विद ह्यूमन फीडबैक (RLHF) किया जाता है ताकि पूर्वाग्रह और त्रुटियों को कम किया जा सके।

लार्ज लैंग्वेज मॉडलों (LLMs) के प्रशिक्षण में चुनौतियाँ

सीमित पूँजी: चूँकि पूँजी सीमित है, भारतीय कंपनियों द्वारा भारतीय उपयोगकर्ताओं के लिए LLMs प्रशिक्षित करना चुनौतीपूर्ण हो सकता है, विशेष रूप से यदि इसके लिए कोई तत्काल व्यावसायिक उपयोग मामला न हो।
- उदाहरण के लिए, 70-बिलियन-पैरामीटर वाले LLMs का प्रशिक्षण लगभग 6 मिलियन डॉलर की लागत वाला हो सकता है, जो शुरुआती चरण की भारतीय स्टार्ट-अप्स के लिए बिना निकट-अवधि लाभ की गारंटी के अत्यधिक महंगा है।
उच्च पूँँजी तीव्रता: LLMs को प्रशिक्षित करना और संचालित करना महँगे GPU क्लस्टर्स और विशाल बिजली खपत की माँग करता है, जिसकी लागत मिलियन डॉलर में होती है।
- उदाहरण के लिए, जीपीटी-3 का प्रशिक्षण 4–5 मिलियन डॉलर की कंप्यूट लागत में हुआ, जबकि जीपीटी-4 के लिए रिपोर्ट के अनुसार, कई मिलियन डॉलर और हजारों GPU महीनों तक चलाए गए।
भारतीय भाषा संबंधी डेटा की कमी: इंटरनेट डेटा अंग्रेजी, यूरोपीय, कोरियाई और जापानी सामग्री द्वारा प्रभुत्वित है, जिससे भारतीय भाषाएँ कम प्रतिनिधित्व वाली हैं।
- उदाहरण के लिए, वेब सामग्री में अंग्रेजी का हिस्सा 50% से अधिक है, जबकि अधिकांश भारतीय भाषाएँ प्रत्येक में 1% से कम हैं, जिससे कॉमन क्रॉल जैसे डेटासेट में न्यूनतम प्रतिनिधित्व होता है।
भारतीय भाषाओं में प्रदर्शन अंतर: सीमित मूल डेटासेट के कारण, LLMs भारतीय भाषाओं में प्रायः अंग्रेजी की तुलना में खराब प्रदर्शन करते हैं।
अधिक टोकन खपत: कई मॉडल भारतीय भाषा इनपुट को बेहतर प्रसंस्करण के लिए अंग्रेजी में अनुवादित करते हैं और फिर आउटपुट को वापस अनुवादित करते हैं, जिससे टोकन उपयोग तथा अनुमान लागत बढ़ जाती है।
- उदाहरण के लिए, 10-शब्द का अंग्रेजी वाक्य लगभग 12–15 टोकन उपयोग कर सकता है, जबकि वही वाक्य टोकनाइजेशन की अक्षमताओं के कारण हिंदी (देवनागरी लिपि) में 20–25 टोकन की खपत कर सकता है।

सरकारी समर्थन और संस्थागत प्रयास

इंडियाAI मिशन सब्सिडी: इंडियाAI मिशन ने भारतीय डेटा सेंटर (जैसे-Yotta) में 36,000 से अधिक GPU की व्यवस्था की है, ताकि शोधकर्ताओं और स्टार्ट-अप्स को सस्ती कंप्यूट पहुँच प्रदान की जा सके।
सर्वम् को प्रत्यक्ष समर्थन: सरकार ने अपने साझा कंप्यूट क्लस्टर से सर्वम् को 4,096 GPU आवंटित किए, जिसमें सब्सिडी लगभग ₹100 करोड़ आँकी गई है।
इलेक्ट्रॉनिक्स और सूचना प्रौद्योगिकी मंत्रालय (MeitY): यह घरेलू LLMs को बढ़ावा देता है, ताकि मॉडल प्रशिक्षण में कुशल प्रतिभा तैयार हो सके और भारतीय भाषाओं तथा सामाजिक-सांस्कृतिक संदर्भों में समग्र भारतीय AI इकोसिस्टम को मजबूत किया जा सके।

मिक्सचर ऑफ एक्सपर्ट्स (MoE) के बारे में

मिश्रित विशेषज्ञ (MoE) AI मॉडलों को डिजाइन करने की एक विधि है, जिसमें हर प्रश्न के लिए पूरे मॉडल का उपयोग करने के बजाय केवल आवश्यक भागों का ही उपयोग किया जाता है।
उदाहरण के लिए
- कल्पना कीजिए एक विद्यालय है, जिसमें कई शिक्षक (विशेषज्ञ) हैं।
- यदि कोई छात्र गणित का प्रश्न पूछता है, तो केवल गणित का शिक्षक उत्तर देता है, इतिहास या विज्ञान के शिक्षक नहीं।
इसी प्रकार
- एक सामान्य AI मॉडल में, प्रत्येक प्रश्न के लिए सभी भाग कार्य करते हैं, जिससे अधिक ऊर्जा और धन का उपयोग होता है।
- एक MoE मॉडल में, केवल कुछ विशेषीकृत भाग सक्रिय होते हैं, जिससे यह तीव्र और सस्ता बनता है।

आगे की राह

भारतीय भाषा डेटासेट का विस्तार: हिंदी, तमिल, बंगाली, मराठी और अन्य भारतीय भाषाओं में उच्च-गुणवत्ता वाले, एनोटेटेड कॉर्पस का निर्माण सार्वजनिक–निजी भागीदारी तथा भाषिणी जैसी पहलों के माध्यम से किया जाए।
केंद्रित क्षेत्रीय मॉडल: केवल वैश्विक अग्रणी मॉडलों से प्रतिस्पर्द्धा करने के बजाय शासन, शिक्षा, स्वास्थ्य, कृषि और विधि जैसे क्षेत्रों के लिए छोटे, डोमेन-विशिष्ट LLMs विकसित किए जाएँ।
उद्योग–शैक्षणिक सहयोग: आईआईटी, आईआईआईटी, स्टार्ट-अप्स और MeitY के बीच साझेदारी को मजबूत किया जाए, ताकि कुशल AI प्रतिभा और शोध क्षमता विकसित की जा सके।
ऊर्जा दक्ष आर्किटेक्चर: प्रशिक्षण और अनुमान लागत को कम करने के लिए मिक्सचर ऑफ एक्सपर्ट्स (MoE) तथा मॉडल कंप्रेशन जैसी विधियों को अपनाया जाए।

LLMs संबंधी स्वदेशी प्रयास

भारतजेन (आईआईटी बॉम्बे-इनक्यूबेटेड): शिक्षा और स्वास्थ्य जैसे क्षेत्रों के लिए लक्षित एक बहुभाषी 17-बिलियन-पैरामीटर मॉडल प्रशिक्षित किया।
Gnani.ai: स्पीच आधारित AI अनुप्रयोगों पर केंद्रित एक छोटा टेक्स्ट-टू-स्पीच मॉडल लॉन्च किया।

DOWNLOAD PDF

Recent Post
Most Viewed Post

लार्ज लैंग्वेज मॉडल (LLMs) का प्रशिक्षण

संदर्भ

संबंधित तथ्य

लार्ज लैंग्वेज मॉडल (LLMs) के बारे में

लार्ज लैंग्वेज मॉडलों (LLMs) का प्रशिक्षण

लार्ज लैंग्वेज मॉडलों (LLMs) के प्रशिक्षण में चुनौतियाँ

सरकारी समर्थन और संस्थागत प्रयास

मिक्सचर ऑफ एक्सपर्ट्स (MoE) के बारे में

आगे की राह

LLMs संबंधी स्वदेशी प्रयास

संक्षिप्त समाचार

ब्रिक्स में वैज्ञानिक ...

लद्दाख मैग्मैटिक आर्क

मेलानोमा का प्रसार

नागोया प्रोटोकॉल के का...

संक्षिप्त समाचार

वर्ल्ड ओबेसिटी एटलस, 2026

भारत–फ्राँस साझेदारी

भारत–इजरायल संबंध

बांग्लादेश की नई सरकार...

PERT: जीनोम एडिटिंग विधि

भारतीय सेना की द्वि-उप�...

UPSC Foundation Courses

Follow Us

Explore Optional Courses

Need help preparing for UPSC or State PSCs?

Books

UPSC PYQs

UPSC Notes

Current Affairs

Aiming for UPSC?

Our Courses

Our Initiatives

Beginner’s Roadmap

Our Offline Centers

Download Our App

Contact Details

Aiming for UPSC?

Our Courses

Our Courses

Our Initiatives

Our Initiatives

Biginner's Roadmap

Beginner’s Roadmap

Our Offline Centres

Our Offline Centers

Follow Us:

Contact Details

Download Our App