தமிழின் பெருமொழிப் போன்மங்களின் எதிர்காலவியல்
முனைவர் தமிழ்ப்பரிதி மாரி
உதவிப்பேராசிரியர்,
இதழியல் மற்றும் மக்கள் தொடர்பியல் துறை,
பெரியார் பல்கலைக்கழகம்,
சேலம்-636011, தமிழ்நாடு.
உலா பேசி: +91- 7299397766,
மின்மடல்: tparithi@periyaruniversity.ac.in
அறிமுகம்
செயற்கை நுண்ணறிவு, இயற்கை மொழிப் பகுப்பாய்வுத் துறைகளில் ஏற்பட்டுள்ள பாய்ச்சல், மாந்தர்களுக்கும் கணிப்பொறிகளுக்கும் இடையிலான தொடர்பை முற்றிலும் மாற்றியமைத்துள்ளது. இம்மாற்றத்தின் அடிப்படையாக 'பெருமொழிப் போன்மங்கள்' (Large Language Models - LLMs) விளங்குகின்றன. நுட்பங்கள், ஆங்கிலம் போன்ற தரவு வளம் மிக்க மொழிகளைத் தாண்டி, தமிழ் போன்ற தொன்மையான மற்றும் ஒட்டுநிலை (Agglutinative) மொழிகளை நோக்கி நகரும் இக்காலத்தில், தமிழ் பெருமொழிப் போன்மங்களின் தேவை, தற்போதைய நிலை மற்றும் எதிர்காலவியலை ஆராய்ந்து குறை களைந்து, தமிழுக்குரிய பெருமொழிப் போன்மங்களை உருவாக்குவது காலத்தின் தேவையாகும்.
பெருமொழிப் போன்மம்
பெருமொழிப் போன்மம் என்பது பல கோடிக்கணக்கான அளபுருக்களைக் கொண்டு, ஆழமான நரம்பியல் வலைப்பின்னல் - மாற்றி கட்டமைப்பின் அடிப்படையில் உருவாக்கப்பட்ட ஒரு செய்தெட்பப் போன்மம் ஆகும். இது மாந்தர்களைப் போல மொழியைப் புரிந்து கொள்ளவும், உரைகளை உருவாக்கவும், மொழிபெயர்க்கவும், சுருக்கி எழுதவும் வல்லது.
உலகமொழிகளில் பெருமொழிப் போன்மம்
உலக அளவில் தொழில்நுட்ப வளர்ச்சியில் முன்னணியில் உள்ள நாடுகள், தங்களது தாய்மொழிகளுக்கான பெருமொழிப் போன்மங்களை உருவாக்குவதில் அதிகக் கவனம் செலுத்தி வருகின்றன. ஐரோப்பிய மொழிகளான பிரெஞ்சு, செருமன், சுபேனிசு போன்றவை தமக்கான தனித்த போன்மங்களைக் கொண்டுள்ளன. இது அந்தந்த மொழிகளின் எண்ணிம இடத்தை உறுதி செய்து தற்கால உலகில் மொழிகளின் இருத்தலை எளிதாக்கியுள்ளது.
முதல் பத்து பெருமொழிப் போன்மங்கள்
தற்போதைய உலகளாவிய நுட்பியல் சந்தையில் கவனம் செலுத்தும் முதல் பத்து பெருமொழிப் போன்மங்கள் என்பன, GPT-4 (OpenAI), Gemini 1.5 Pro (Google), Claude 3 Opus (Anthropic), LLaMA 3 (Meta), Mistral Large (Mistral AI), PaLM 2 (Google), Qwen (Alibaba), Falcon (TII), Grok (xAI), Command R+ (Cohere) ஆகியனவாகும்.
ஆசிய மொழிகளில் பெருமொழிப் போன்மம்
சீனா, யப்பான், தென்கொரியா போன்ற ஆசிய நாடுகள் தங்களின் மொழிகளுக்கான செய்தெட்ப போன்மங்களை உருவாக்குவதில் பெரிய அளவில் முதலீடுகளைச் செய்துள்ளன. சீனாவின் 'Qwen', 'Ernie Bot', தென்கொரியாவின் 'HyperCLOVA X' போன்றவை ஆசிய மொழிகளுக்கான வெற்றிகரமான முன்னெடுப்புகளாகும். இவை ஆங்கிலச் சார்பைக் குறைத்து, ஆசியப் பண்பாட்டுத் தரவுகளின் அடிப்படையில் செயல்படுகின்றன.
ஆங்கிலத்தின் பெருமொழிப் போன்மம்
தற்போதைய பெருமொழிப் போன்மங்கள் பெரும்பாலும் ஆங்கிலத்தை ஒட்டியேக் கட்டமைக்கப்பட்டுள்ளன. இணையத்தில் உள்ள ஒட்டுமொத்தத் தரவுகளில் 60% முதல் 80% வரை ஆங்கிலத்திலேயே உள்ளதால், செய்தெட்பப் போன்மங்கள் ஆங்கிலத்தில் சிந்திக்கவும், தடையின்றி உரையாடவும் மிக எளிதாகப் பயிற்றுவிக்கப்படுகின்றன.
ஆங்கிலம் பெருமொழிப் போன்மமாக உருவாக அடிப்படைகள்
தொடக்கக்கால எண்ணிமமாக்கம் - கணிப்பொறிப் தொழில்நுட்பத்தின் தொடக்கமே ஆங்கில (ASCII) குறியீடுகளில் அமைந்தது.
தரவுக் குவியல் (Data Abundance) - இணையதளங்கள், மின்-நூல்கள், ஆய்வுக் கட்டுரைகள் எனப் பரந்துபட்ட, பிழையற்ற தரவுத்தொகுப்புகள் (Datasets).
பொருளியல், ஆய்வுப் பின்புலம் - சிலிக்கான் வேலி நிறுவனங்களின் பல கோடிக்கணக்கான முதலீடுகள்.
இந்திய மொழிகளில் பெருமொழிப் போன்மம்
இந்தியா போன்ற பன்மொழிச் சமூகத்தில், உள்ளூர் மொழிகளுக்கான செய்தெட்பத்தின் தேவை மிகுதி. 'Bhashini' (இந்திய அரசு), AI4Bharat (சென்னை ஐஐடி), Sarvam AI மற்றும் Krutrim போன்ற நிறுவனங்கள் இந்திய மொழிகளுக்கான பெருமொழிப் போன்மங்களை உருவாக்கும் பணியில் ஈடுபட்டு வருகின்றன.
தமிழ் பெருமொழிப் போன்மத்தின் தற்போதைய நிலை
தமிழுக்கான தனித்த, அடிப்படையிலிருந்து உருவாக்கப்பட்ட ஒரு பெருமொழிப் போன்மம் இன்னும் முழுமை பெறவில்லை. தற்போதுள்ள போன்மங்கள் (சான்று: Tamil LLaMA) ஆங்கில போன்மங்கள் மீது தமிழைப் பயிற்றுவித்து (Fine-tuning) உருவாக்கப்பட்டவையே ஆகும். இவை ஓரளவிற்குச் சிறப்பாகச் செயல்பட்டாலும், மொழியின் ஆழமான இலக்கண அமைப்பை முழுமையாகப் வெளிப்படுத்தவில்லை.
கட்டமைப்புச் சிக்கல்கள்
தமிழ் ஒரு 'ஒட்டுநிலை மொழி'. ஒரு வேர்ச்சொல்லுடன் பல விகுதிகள் இணைந்து புதிய சொற்கள் உருவாகும் (சான்று: 'செய்துகொண்டிருக்கிறார்கள்'). இதனால் 'வில்லைகளாக்கம்' செய்யும் போது, தமிழ் சொற்கள் தேவையற்ற முறையில் பல துண்டுகளாக உடைக்கப்படுகின்றன. இது கணிப்பீட்டுச் சுமையையும் நேரத்தையும் மிகுதியாக்குகின்றது. எனவே தமிழின் இயல்பிற்கேற்ப பல்வகை ஆய்வுகள் செறிவாக நிகழ்த்தப்பெற வேண்டும். தொல்காப்பியம் முதல் இக்கால தமிழ் இலக்கியம், வட்டார வழக்குத் தமிழ் என யாவும் செப்பமான முறையில் கட்டற்ற முறையில், கட்டமைக்கப் பெற்றதாக, பொறிகளும் படிக்கும் வகையில் சீராக உருவாக்கப்பெற வேண்டும்.
தரவுப் பற்றாக்குறை
செய்தெட்பப் போன்மங்களைப் பயிற்றுவிக்க பல டெராபைட் (Terabytes) அளவிலான உயர்தரத் தமிழ் உரை தேவை. விக்கிப்பீடியா, செய்தித் தளங்கள் எனச் சில வளங்கள் இருந்தாலும், பல்துறை சார்ந்த (மருத்துவம், சட்டம், அறிவியல், வேளாண்மை, பொறியியல், நுட்பியல் என) தூய, பிழையற்ற, எண்ணிமத் தமிழ் உரைத் தரவுகள் இணையத்தில் மிகக் குறைவாகவே உள்ளன.
தமிழ் பெருமொழிப் போன்மம் எதிர்கொள்ளும் இடர்கள்
பொருளற்ற உளறல்கள்
தரவுகள் குறைவாக இருப்பதால் பொருளற்ற உளறல்கள் மிகுந்துக் காணப்பெறுகின்றன. சில நேரங்களில் தவறான உரைகளைத் தமிழ் போன்மங்கள் வழங்கக்கூடும்.
வட்டார வழக்குகளின் தரவுகள்
இலங்கை, மலேசியா, கொங்கு, திருநெல்வேலி, கன்னியாகுமரி, தூத்துக்குடி, கரிசல், மதுரை, நாஞ்சில், திருச்சிராப்பள்ளி, தஞ்சாவூர், நடுநாடு, செட்டிநாடு, நீலகிரி, கல்வராயன்மலை, சவ்வாதுமலை, கொடைக்கானல், சென்னை, காஞ்சிபுரம், செங்கல்பட்டு, அறந்தாங்கி, இராமநாதபுரம், புதுச்சேரி என்று தமிழ்நாட்டின் அனைத்து மாவட்டங்களுக்கும் புதுச்சேரிக்கும் பல்வேறு வட்டார வழக்குகளை செய்தெட்பம் முழுமையாகப் புரிந்து கொள்ளாத நிலையுள்ளது. இந்நிலை உடனடியாக மாற்றப்பெற வேண்டும். வட்டார வழக்கு என்னும் மண்மொழி முழுமையான தரவாக மாற்றப்பெற வேண்டும்.
ஆங்கில வல்லாண்மை
சிந்தனை அமைப்பு ஆங்கிலத்தில் இருந்து, அது தமிழுக்கு மொழிபெயர்க்கப்படுவதால் ஏற்படும் செயற்கைத்தன்மையை மாற்ற தமிழின் இயல்பிற்கேற்ப பெருந்தரவுகளின் அடிப்படையில் தன்னியக்கமான மொழிபெயர்ப்புக் கருவிகளை உருவாக்க வேண்டும். எதற்கும் ஆங்கிலத்தை சார்ந்திருக்கும் நிலை மாற வேண்டும்.
தமிழ் பெருமொழிப் போன்மங்களின் வளநிலைகள்
தமிழ் பெருமொழிப்போன்ம உருவாக்கத்திற்கு மதுரைத் திட்டம் உருவாக்கியுள்ள பழங்கால, தற்கால இலக்கியங்களின் மின்-தொகுப்பு மிகவும் பயனுடைய ஒன்றாகும். தமிழ் விக்கிப்பீடியா வாயிலாக ஓரளவிற்குச் செறிவான கலைக்களஞ்சியத் தரவுகள் உருவாகியுள்ளன.
தமிழ்நாட்டு அரசின் முன்னெடுப்புகள்
தமிழ் இணையக்கல்விக்கழகம் உருவாக்கியுள்ள நூலகத்தரவுகள், தரவுக் களஞ்சியங்கள். நாட்டுடையாக்கப்பெற்ற நூல்கள் ஆகியன குறிப்பிடத்தக்க அடிப்படைத் தரவுகளாகும். இத்தரவுகள் இன்னும் சீர்மைபெற வேண்டும்.
தமிழ் பெருமொழிப் போன்மங்களின் தற்போதைய முன்னெடுப்புகள்
அபிநந்த் மற்றும் குழுவினரால் திறமூலமாக (Open-source) வெளியிடப்பட்ட Tamil-LLaMA, AI4Bharat அமைப்பின் IndicLLM போன்றவை குறிப்பிடத்தக்க முன்னெடுப்புகளாகும். இவை LLaMA போன்ற அடிப்படை மாதிரிகளில் தமிழின் Tokenizer-ஐ மேம்படுத்திப் பயிற்றுவிக்கப்பட்டுள்ளன.
பண்பாட்டுப் புரிதல்
ஒரு சிறந்த தமிழ் போன்மம் என்பது வெறும் மொழியாக்கக் கருவி அல்ல; அது தமிழ்ப் பண்பாட்டை உள்வாங்கியதாக இருக்க வேண்டும். கழக இலக்கியங்கள் முதல் தற்கால இலக்கியங்கள் வரையிலான விழுமியங்கள், தமிழர்களின் வாழ்வியல், நகைச்சுவை உணர்வு, மரபுகளை ஒரு செய்தெட்பப் போன்மம் உள்ளடங்கியதாக உருவாக வேண்டும்.
மின்னகராதிகளின் தரவுத்தளம்
செறிவான, பன்முகத்தன்மை கொண்ட மின்னகராதித் தரவுகள் (E-Dictionaries) நேரிடையாக போன்மங்களின் பயிற்றுவிப்பிற்கு அளிக்கப்பட வேண்டும். தமிழ்ப்பேழை (https://mydictionary.in/) என்னும் தளத்தில் 72-க்கும் மேற்பட்ட அகராதிகள் படைப்பாக்கப் பொதும உரிமத்தின்கீழ் 160 துறைகளுக்கு 16 இலக்கத்திற்கும் மேற்பட்ட தரவுகள் 1.5 கோடிக்கும் மேற்பட்ட விளக்கங்களுடன் அளிக்கப்பெற்றுள்ளன. தமிழ் விக்சனரி, சொற்குவை ஆகிய தளங்களின் தரவுகள் குறிப்பிடத்தக்க ஒன்றாகும். சொற்குவையின் தரவுகள் பயன்பாட்டு நிரலாக்க இடைமுகத்துடன் வழங்கப்பெற வேண்டும்.
வேர்ச்சொல் அடிப்படையிலான அருங்கலைச்சொற்கள்
பிறமொழிச் சொற்களின் ஒலிபெயர்ப்புகளாக இல்லாமல், தமிழ் வேர்ச்சொற்களில் இருந்து பெறப்பட்ட தூய கலைச்சொற்களைப் போன்மங்களுக்குக் கற்பிக்க வேண்டும். தமிழின் அனைத்துச் சொற்களுக்குமான வேர்ச்சொல் தரவுகள் கட்டற்ற முறையில், ஒன்றிணைக்கப் பெற்ற தரவுகளாக, கட்டற்ற முறையில், ஒலிக்குறிப்புகளுடன், பொறிகளும் படிக்கும் வகையில் உருவாக்கப்பெற வேண்டும்.
தமிழ் பெருமொழிப் போன்மங்களின் எதிர்காலவியல்
எதிர்காலத்தில் தமிழுக்கென தனித்த சிறப்பான 'அடித்தளப் போன்மங்கள்' உருவாக்கப்படும். இவை குரல் வழி உள்ளீடுகளை நேரடியாகப் புரிந்து கொண்டு செயல்படும் பன்முகப் போன்மங்களாக (Multimodal LLMs) உருவெடுக்கும். கல்வி, தொலை-மருத்துவம், வேளாண் வழிகாட்டுதல், மின்-ஆளுமை அனைத்துத்துறைகளில் இவை பெரும் புரட்சியை ஏற்படுத்தும். அனைத்துத் துறைகளின் அடிப்படைத்தரவுகளும் செய்தெட்பத்தின் புரிதல்களுடன் கட்டற்றத் தரவுகளாக, பொறிகளும் படிக்கும் வகையில் உருவாக்கப்பெற வேண்டும். தமிழின் தரவுகள் பயன்பாட்டு நிரலாக்க இடைமுகம் கொண்டவையாக இருப்பதை உறுதி செய்ய வேண்டும்.
தமிழ் பெருமொழிப் போன்ம உருவாக்கத்திற்கான செலவினம்
ஒரு பெருமொழிப் போன்மத்தை அடிப்படையிலிருந்து பயிற்றுவிக்க, ஆயிரக்கணக்கான GPU-கள் (Graphics Processing Units) தேவை. தரவுகளைச் சேகரித்தல், தூய்மைப்படுத்துதல் (Data Cleaning), மாந்த மதிப்பீட்டாளர்களைக் கொண்டு சீரமைத்தல் (RLHF) என்று அதற்கான மின்சாரச் செலவு, உழைப்பு, இணையம், கருவிகள் இதர வசதிகள் என இதற்குப் பற்பல-கோடிகள் முதலீடாகத் தேவைப்படும். தமிழை ஆட்சி, தேசிய மொழியாகக் கொண்டுள்ள நாடுகள் இது குறித்து முடிவெடுக்க வேண்டும்.
முடிவுரை
தமிழ் மொழி எண்ணிம உலகில் தனது நிலைத்தன்மையை உறுதி செய்ய, அதற்கான வலுவான பெருமொழிப் போன்மங்கள் காலத்தின் கட்டாயம். ஆங்கிலச் சார்பு போன்மங்களில் தமிழைப் பொருத்துவதை விடுத்து, தமிழின் இலக்கண, கட்டமைப்பு விதிகளுக்கு ஏற்பப் புதிய போன்மங்களை உருவாக்குவதே மொழியின் எதிர்காலத்தைக் காக்கும். தற்போது தமிழின் இலக்கிய, இலக்கண, உரை வளங்கள், ஒலி வளங்கள், பட ஆவணங்கள், விழிய, பிற-ஆவண வளங்கள், ஒளி-ஒலி வளங்கள் இன்னும் எண்ணிமப்படுத்தப் பெறாமல் உள்ளன. இந்நிலை மாற வேண்டும்.
ஆய்வுப் பரிந்துரை
1. தமிழின் ஒட்டுநிலைத் தன்மைக்கு ஏற்ற புதிய வில்லையாக்கம் சார்ந்த நிரல்களையும் கட்டமைக்கப்பெற்ற தரவுகளையும் உருவாக்குவது குறித்து தனித்த பேராய்வுகள் மேற்கொள்ளப்பட வேண்டும்.
2. தரமான, திறமூல (Open-source) தமிழ் உரைத் தரவுத்தொகுப்புகளை (Tamil Text Corpora) உருவாக்கும் கூட்டு முயற்சிகள் முடுக்கிவிடப்பட வேண்டும்.
3. தமிழ்நாட்டு அரசின் துறைகள், வாரியங்கள், அரசு சார்புடைய தன்னாட்சி நிறுவனங்கள் ஆகிவற்றின் இணைய தளங்கள் பயன்பாட்டு நிரலாக்க இடைமுகம் கொண்டதாக அமைய வேண்டும்.
4. பெருமொழிப் போன்ம உருவாக்கத்திற்கு தமிழ்நாடு அரசு முழுமையான நிதி ஒதுக்கீட்டினைச் செய்ய வேண்டும்.
5. தமிழின் பெருமொழிப் போன்ம உருவாக்கத்திற்கு நடுவண் அரசு முழுமையான நிதி ஒதுக்கீட்டினைச் செய்ய வேண்டும்.
6. தமிழ் ஆட்சி மொழிகளாக உள்ள இலங்கை, சிங்கப்பூர் அரசுகள் இத்திட்டத்திற்கு நிதியளித்து ஆய்வுகளை மேம்படுத்த வேண்டும்.
7. தமிழர்கள் இணையத்தில் தமிழில் கட்டற்ற முறையில் எழுதுவதை இன்னும் மேம்படுத்த வேண்டும்.
8. எண்ணிமப் பணிகளின் கற்றல், கற்பித்தல், ஆராய்ச்சிப்பணிகளை மேம்படுத்த தமிழ் எண்ணிமப் பல்கலைக்கழகம் ஒன்றினை தமிழ்நாடு அரசு உடன் உருவாக்க வேண்டும்.
9. உருபனியல் வில்லைகளாக்கம்: தமிழ் இலக்கணத்தின் வேர் மற்றும் விகுதிகளைச் சிதைக்காத புதிய திறமூல வில்லைகளாக்க நெறிமுறைகளை உருவாக்குதல்.
10. தூய தமிழ்க் கலைச்சொற்கள் அடங்கிய அகராதித் தரவுத்தளங்களைப் பெருமொழிப் போன்மப் பயிற்சிக்காகப் பொதுவெளியில் விரிவுபடுத்துதல்.
11. தரமான தமிழ் உரைத்தரவுகளை உருவாக்க அகராதியியல் வல்லுநர்கள், மொழியியல் ஆய்வாளர்கள் மற்றும் மென்பொருளாளர்களை ஒருங்கிணைந்து செயல்படும் அமைப்புகளை உருவாக்க வேண்டும்.
ஆய்வுப் பரவல்
தமிழின் பெருமொழிப் போன்மங்களை உருவாக்க தமிழ்நாடு, இலங்கை, சிங்கப்பூர், மலேசிய, இந்திய ஒன்றியத்தில் தமிழர் வாழும் மாநிலங்களின் வட்டார வழக்குகள் பதிப்புரிமை, காப்புரிமை அற்ற கட்டற்ற முறையில் பொறிகளும் படிக்கும் வகையில் ஒருங்கிணைக்கப் பெற்றதாக செந்தரத்துடன் உருவாக்கப்பெற வேண்டும்.
சான்றாதாரங்கள்
பெருமொழிப் போன்மங்களின் அடிப்படை மற்றும் கட்டமைப்பு (Transformer Architecture)
* Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998-6008.
தமிழ் LLaMA மற்றும் தமிழியல் தரவுகள் (Tamil-LLaMA)
* Balachandran, A. (2023). Tamil-LLaMA: A new paradigm for Tamil natural language processing. arXiv preprint arXiv:2311.05845. https://doi.org/10.48550/arXiv.2311.05845
இந்திய மொழிகளுக்கான AI மற்றும் IndicLLM (AI4Bharat / Bhashini)
* Gala, J., Doshi, P., Shah, R., & Khapra, M. M. (2023). IndicLLM: A suite of language models for Indian languages. arXiv preprint arXiv:2308.16335.
* Ministry of Electronics and Information Technology (MeitY). (2022). Bhashini: National Language Translation Mission. Government of India.
உலகளாவிய பெருமொழிப் போன்மங்கள் (GPT-4, LLaMA)
* OpenAI. (2023). GPT-4 technical report. arXiv preprint arXiv:2303.08774.
* Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., ... & Scialom, T. (2023). Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288.
ஒட்டுநிலை மொழிகளின் வில்லைகளாக்கச் சிக்கல்கள் (Tokenization & Agglutinative Languages)
* Kudo, T., & Richardson, J. (2018). SentencePiece: A simple and language independent subword tokenizer and detokenizer for neural text processing. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations (pp. 66-71). Association for Computational Linguistics.
தமிழ் இலக்கிய, அகராதியியல் தரவுகள்
* TamilPelai. (1998-2024). Open access repository of Tamil lexicography works. (இணையமுகவரி: https://MyDictionary.in/)
* Project Madurai. (1998-2024). Open access repository of Tamil literary works. (இணையமுகவரி: http://www.projectmadurai.org)
*****

இது முத்துக்கமலம் இணைய இதழின் படைப்பு.