मेटा ने सोमवार, 10 नवंबर को ऑटोमेटिक स्पीच रिकग्निशन (एएसआर) क्षमताओं के साथ ओपन वेट एआई मॉडल का एक सूट पेश किया जो दुनिया भर की 1,600 भाषाओं को शामिल करता है। इसमें 500 ‘कम संसाधन वाली भाषाएं’ भी शामिल हैं। इन भाषाओं को पहली बार एआई का उपयोग करके लिपिबद्ध किया गया है।
ओमनीलिंगुअल एएसआर मॉडल मेटा की फंडामेंटल एआई रिसर्च (एफएआईआर) टीम द्वारा विकसित किए गए हैं। कंपनी ने एक ओपन-वेट, बहुभाषी स्पीच रिप्रेजेंटेशन मॉडल भी पेश किया है, जिसे ओमनीलिंगुअल वेव2वेक 2.0 के नाम से जाना जाता है, जिसे सात अरब मापदंडों तक बढ़ाया जा सकता है। इससे डेवलपर्स एआई-संचालित स्पीच एप्लिकेशन की एक विस्तृत श्रृंखला बना सकते हैं।
Meta के मॉडल में ये भारतीय भाषाएं
मेटा के एएसआर मॉडल द्वारा समर्थित भारतीय भाषाओं में हिंदी, मराठी, मलयालम, तुलु, तेलुगु, ओडिया, पंजाबी, मारवाड़ी, उर्दू आदि शामिल हैं। महत्वपूर्ण बात ये है कि ये मॉडल देश में कम बोली जाने वाली कई लंबी-पूंछ वाली भारतीय भाषाओं को भी लिपिबद्ध करने में सक्षम हैं, जैसे कुई, छत्तीसगढ़ी, मैथिली, बघेली, महासू पहाड़ी, अवधी, राजबंशी, आदि।
इसके अलावा मेटा ने 350 वंचित भाषाओं में लिखित भाषण का अपना सर्वभाषी एएसआर कोष सार्वजनिक रूप से उपलब्ध करा दिया है। कंपनी द्वारा यह घोषणा ऐसे वक्त में की गई है जब भारतीय एआई स्टार्टअप्स भारतीय भाषा मॉडल विकसित करने की होड़ में हैं, जिसे मिशन भाषिनी जैसी सरकार समर्थित पहलों से बल मिल रहा है। इसका उद्देश्य देश में भाषा एआई नवाचार को आगे बढ़ाना है।
भाषिनी एआई मिशन के तहत प्राप्त डेटासेट का उपयोग करके बड़े भाषा मॉडल (एलएलएम) विकसित करने वाले स्टार्टअप्स को मेटा और ओपनएआई जैसे एआई दिग्गजों से कड़ी प्रतिस्पर्धा का सामना करना पड़ रहा है, जो भारत में अपने पैर जमाने की कोशिश कर रहे हैं क्योंकि भारत एक बड़ा बाजार है।
हालांकि उच्च-गुणवत्ता वाले प्रशिक्षण डेटासेट की कमी अधिकांश खिलाड़ियों के लिए एक चुनौती है क्योंकि इंटरनेट पर लंबी-पूंछ वाली भाषाओं का पर्याप्त प्रतिनिधित्व नहीं है। मेटा ने इस बाबत एक ब्लॉग पोस्ट में कहा “इसका मतलब है कि कम व्यापक रूप से प्रतिनिधित्व वाली या कम संसाधन वाली भाषाओं के बोलने वालों के लिए उच्च-गुणवत्ता वाले ट्रांसक्रिप्शन अक्सर उपलब्ध नहीं होते जिससे डिजिटल विभाजन और बढ़ जाता है।”
इसमें आगे कहा गया कि वर्तमान एआई मॉडल आर्किटेक्चर को सार्वभौमिक रूप से स्केल नहीं किया जा सकता क्योंकि वे संसाधन गहन हैं।
Omnilingual wav2vec 2.0 क्या है?
मेटा का यह नया मल्टीलिंगुअल स्पीच रिप्रेसेनटेशन मॉडल जिसे एलएलएम एएसआर कहा जाता है। इसे एक अनुमोदित अपाचे 2.0 लाइसेंस के अंतर्गत जारी किया गया है। मेटा ने कहा कि “सबसे पहले हमने अपने पिछले wav2vec 2.0 स्पीच एनकोडर को पहली बार 7B मापदंडों तक बढ़ाया, जिससे कच्चे, अप्रलेखित स्पीच डेटा से समृद्ध, व्यापक बहुभाषी अर्थपूर्ण निरूपण तैयार हुए।”
इसके प्रदर्शन के संदर्भ में बात करें तो एलएलएम एएसआर मॉडल ने अपने सर्वभाषी एएसआर प्रयासों के तहत समर्थित 1,600 से अधिक भाषाओं में से 78 प्रतिशत के लिए 10 से नीचे वर्ण त्रुटि दर (सीईआर) दर्ज की।
कंपनी ने यह भी बताया कि उसने मोजिला फाउंडेशन की ‘कॉमन वॉइस’ पहल जो स्थानीय समुदायों के साथ सीधे काम करती है, जैसे संगठनों के साथ मिलकर भाषाविदों, शोधकर्ताओं और भाषा समुदायों के एक समूह के साथ काम किया है। यह डेटा संग्रह CC-BY लाइसेंस के तहत जारी किया गया है, जिससे शोधकर्ता और डेवलपर इसका उपयोग AI-संचालित स्पीच एप्लिकेशन बनाने में कर सकते हैं।
इससे पहले इसी साल सितंबर में आई रिपोर्टों में कहा गया था कि मेटा तीसरे पक्ष के ठेकेदारों के साथ मिलकर हिंदी में एआई-संचालित, भूमिका-निर्वाह चैटबॉट विकसित करना चाहता है, ताकि चैटबॉट को अधिक सांस्कृतिक बारीकियों के साथ अनुकूलित किया जा सके।

