Tuesday, November 11, 2025
Homeसाइंस-टेकMeta ने नया स्पीच-टू-टेक्स्ट एआई मॉडल किया लांच, दुर्लभ भारतीय बोलियों सहित...

Meta ने नया स्पीच-टू-टेक्स्ट एआई मॉडल किया लांच, दुर्लभ भारतीय बोलियों सहित 1,600 भाषाएं करता है कवर

Meta ने एक नया स्पीच-टू-टेक्स्ट एआई मॉडल लांच किया है जिसमें 1600 भाषाओं को शामिल किया गया है। इसमें भारत की दुर्लभ भाषाएं भी शामिल हैं।

मेटा ने सोमवार, 10 नवंबर को ऑटोमेटिक स्पीच रिकग्निशन (एएसआर) क्षमताओं के साथ ओपन वेट एआई मॉडल का एक सूट पेश किया जो दुनिया भर की 1,600 भाषाओं को शामिल करता है। इसमें 500 ‘कम संसाधन वाली भाषाएं’ भी शामिल हैं। इन भाषाओं को पहली बार एआई का उपयोग करके लिपिबद्ध किया गया है।

ओमनीलिंगुअल एएसआर मॉडल मेटा की फंडामेंटल एआई रिसर्च (एफएआईआर) टीम द्वारा विकसित किए गए हैं। कंपनी ने एक ओपन-वेट, बहुभाषी स्पीच रिप्रेजेंटेशन मॉडल भी पेश किया है, जिसे ओमनीलिंगुअल वेव2वेक 2.0 के नाम से जाना जाता है, जिसे सात अरब मापदंडों तक बढ़ाया जा सकता है। इससे डेवलपर्स एआई-संचालित स्पीच एप्लिकेशन की एक विस्तृत श्रृंखला बना सकते हैं।

Meta के मॉडल में ये भारतीय भाषाएं

मेटा के एएसआर मॉडल द्वारा समर्थित भारतीय भाषाओं में हिंदी, मराठी, मलयालम, तुलु, तेलुगु, ओडिया, पंजाबी, मारवाड़ी, उर्दू आदि शामिल हैं। महत्वपूर्ण बात ये है कि ये मॉडल देश में कम बोली जाने वाली कई लंबी-पूंछ वाली भारतीय भाषाओं को भी लिपिबद्ध करने में सक्षम हैं, जैसे कुई, छत्तीसगढ़ी, मैथिली, बघेली, महासू पहाड़ी, अवधी, राजबंशी, आदि।

इसके अलावा मेटा ने 350 वंचित भाषाओं में लिखित भाषण का अपना सर्वभाषी एएसआर कोष सार्वजनिक रूप से उपलब्ध करा दिया है। कंपनी द्वारा यह घोषणा ऐसे वक्त में की गई है जब भारतीय एआई स्टार्टअप्स भारतीय भाषा मॉडल विकसित करने की होड़ में हैं, जिसे मिशन भाषिनी जैसी सरकार समर्थित पहलों से बल मिल रहा है। इसका उद्देश्य देश में भाषा एआई नवाचार को आगे बढ़ाना है।

भाषिनी एआई मिशन के तहत प्राप्त डेटासेट का उपयोग करके बड़े भाषा मॉडल (एलएलएम) विकसित करने वाले स्टार्टअप्स को मेटा और ओपनएआई जैसे एआई दिग्गजों से कड़ी प्रतिस्पर्धा का सामना करना पड़ रहा है, जो भारत में अपने पैर जमाने की कोशिश कर रहे हैं क्योंकि भारत एक बड़ा बाजार है।

हालांकि उच्च-गुणवत्ता वाले प्रशिक्षण डेटासेट की कमी अधिकांश खिलाड़ियों के लिए एक चुनौती है क्योंकि इंटरनेट पर लंबी-पूंछ वाली भाषाओं का पर्याप्त प्रतिनिधित्व नहीं है। मेटा ने इस बाबत एक ब्लॉग पोस्ट में कहा “इसका मतलब है कि कम व्यापक रूप से प्रतिनिधित्व वाली या कम संसाधन वाली भाषाओं के बोलने वालों के लिए उच्च-गुणवत्ता वाले ट्रांसक्रिप्शन अक्सर उपलब्ध नहीं होते जिससे डिजिटल विभाजन और बढ़ जाता है।”

इसमें आगे कहा गया कि वर्तमान एआई मॉडल आर्किटेक्चर को सार्वभौमिक रूप से स्केल नहीं किया जा सकता क्योंकि वे संसाधन गहन हैं।

Omnilingual wav2vec 2.0 क्या है?

मेटा का यह नया मल्टीलिंगुअल स्पीच रिप्रेसेनटेशन मॉडल जिसे एलएलएम एएसआर कहा जाता है। इसे एक अनुमोदित अपाचे 2.0 लाइसेंस के अंतर्गत जारी किया गया है। मेटा ने कहा कि “सबसे पहले हमने अपने पिछले wav2vec 2.0 स्पीच एनकोडर को पहली बार 7B मापदंडों तक बढ़ाया, जिससे कच्चे, अप्रलेखित स्पीच डेटा से समृद्ध, व्यापक बहुभाषी अर्थपूर्ण निरूपण तैयार हुए।”

इसके प्रदर्शन के संदर्भ में बात करें तो एलएलएम एएसआर मॉडल ने अपने सर्वभाषी एएसआर प्रयासों के तहत समर्थित 1,600 से अधिक भाषाओं में से 78 प्रतिशत के लिए 10 से नीचे वर्ण त्रुटि दर (सीईआर) दर्ज की।

कंपनी ने यह भी बताया कि उसने मोजिला फाउंडेशन की ‘कॉमन वॉइस’ पहल जो स्थानीय समुदायों के साथ सीधे काम करती है, जैसे संगठनों के साथ मिलकर भाषाविदों, शोधकर्ताओं और भाषा समुदायों के एक समूह के साथ काम किया है। यह डेटा संग्रह CC-BY लाइसेंस के तहत जारी किया गया है, जिससे शोधकर्ता और डेवलपर इसका उपयोग AI-संचालित स्पीच एप्लिकेशन बनाने में कर सकते हैं।

इससे पहले इसी साल सितंबर में आई रिपोर्टों में कहा गया था कि मेटा तीसरे पक्ष के ठेकेदारों के साथ मिलकर हिंदी में एआई-संचालित, भूमिका-निर्वाह चैटबॉट विकसित करना चाहता है, ताकि चैटबॉट को अधिक सांस्कृतिक बारीकियों के साथ अनुकूलित किया जा सके।

अमरेन्द्र यादव
अमरेन्द्र यादव
लखनऊ विश्वविद्यालय से राजनीति शास्त्र में स्नातक करने के बाद जामिया मिल्लिया इस्लामिया से पत्रकारिता की पढ़ाई। जागरण न्यू मीडिया में बतौर कंटेंट राइटर काम करने के बाद 'बोले भारत' में कॉपी राइटर के रूप में कार्यरत...सीखना निरंतर जारी है...
RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments

प्रताप दीक्षित on कहानीः प्रायिकता का नियम
डॉ उर्वशी on कहानीः इरेज़र
मनोज मोहन on कहानीः याद 
प्रकाश on कहानीः याद 
योगेंद्र आहूजा on कहानीः याद 
प्रज्ञा विश्नोई on कहानीः याद 
डॉ उर्वशी on एक जासूसी कथा