Muthukamalam.com / Essay Science & Technology - கட்டுரை - அறிவியல் & தொழில்நுட்பம்

இணையத்தில் ஒரு இலக்கியப் படைப்பு! இது தமிழ் ஆர்வலர்களின் இலக்கியத் துடிப்பு!! ISSN: 2454-1990

முகப்பு / Home ** எங்களைப் பற்றி / About us ** ஆசிரியர் குழு / Editorial Board ** படைப்புகள் / Articles ** கட்டுரைத் தொகுப்புகள் / Essay Compilation

இருபத்தொன்றாம் ஆண்டில் பயணித்துக் கொண்டிருக்கும் முத்துக்கமலம் பன்னாட்டுத் தமிழ் மின்னிதழின் படைப்புகளைப் பார்வையிடத் தங்களை அன்புடன் வரவேற்கிறோம்...! முத்துக்கமலம் இணைய இதழின் வளர்ச்சிக்குத் தங்களால் இயன்ற நன்கொடையினை அளித்து உதவலாம்...!! முத்துக்கமலம் மின்னிதழுக்கு அரசியல், திரைப்படம் தவிர்த்து அனைத்து வகையான படைப்புகளும் வரவேற்கப்படுகின்றன...!!!

Content

உள்ளடக்கம்

கதை

கவிதை

சமையல்

இனிப்பு மற்றும் காரங்கள்

சாதங்கள்

இட்லி மற்றும் தோசைகள்

குழம்பு மற்றும் ரசம்

கீரை

பச்சடி மற்றும் கூட்டு

சட்னி

துவையல்

ஊறுகாய்

வற்றல் மற்றும் பொடிகள்

வடகம் மற்றும் அப்பளம்

சிற்றுண்டி உணவுகள்

கொழுக்கட்டை

வடை

சுண்டல் மற்றும் பயறுகள்

நண்டு

முட்டை

பிற இறைச்சிகள்

கட்டுரை

அறிவியல் & தொழில்நுட்பம்

தமிழின் பெருமொழிப் போன்மங்களின் எதிர்காலவியல்

முனைவர் தமிழ்ப்பரிதி மாரி

உதவிப்பேராசிரியர்,
இதழியல் மற்றும் மக்கள் தொடர்பியல் துறை,
பெரியார் பல்கலைக்கழகம்,
சேலம்-636011, தமிழ்நாடு.
உலா பேசி: +91- 7299397766,
மின்மடல்: tparithi@periyaruniversity.ac.in

அறிமுகம்

செயற்கை நுண்ணறிவு, இயற்கை மொழிப் பகுப்பாய்வுத் துறைகளில் ஏற்பட்டுள்ள பாய்ச்சல், மாந்தர்களுக்கும் கணிப்பொறிகளுக்கும் இடையிலான தொடர்பை முற்றிலும் மாற்றியமைத்துள்ளது. இம்மாற்றத்தின் அடிப்படையாக 'பெருமொழிப் போன்மங்கள்' (Large Language Models - LLMs) விளங்குகின்றன. நுட்பங்கள், ஆங்கிலம் போன்ற தரவு வளம் மிக்க மொழிகளைத் தாண்டி, தமிழ் போன்ற தொன்மையான மற்றும் ஒட்டுநிலை (Agglutinative) மொழிகளை நோக்கி நகரும் இக்காலத்தில், தமிழ் பெருமொழிப் போன்மங்களின் தேவை, தற்போதைய நிலை மற்றும் எதிர்காலவியலை ஆராய்ந்து குறை களைந்து, தமிழுக்குரிய பெருமொழிப் போன்மங்களை உருவாக்குவது காலத்தின் தேவையாகும்.

பெருமொழிப் போன்மம்

பெருமொழிப் போன்மம் என்பது பல கோடிக்கணக்கான அளபுருக்களைக் கொண்டு, ஆழமான நரம்பியல் வலைப்பின்னல் - மாற்றி கட்டமைப்பின் அடிப்படையில் உருவாக்கப்பட்ட ஒரு செய்தெட்பப் போன்மம் ஆகும். இது மாந்தர்களைப் போல மொழியைப் புரிந்து கொள்ளவும், உரைகளை உருவாக்கவும், மொழிபெயர்க்கவும், சுருக்கி எழுதவும் வல்லது.

உலகமொழிகளில் பெருமொழிப் போன்மம்

உலக அளவில் தொழில்நுட்ப வளர்ச்சியில் முன்னணியில் உள்ள நாடுகள், தங்களது தாய்மொழிகளுக்கான பெருமொழிப் போன்மங்களை உருவாக்குவதில் அதிகக் கவனம் செலுத்தி வருகின்றன. ஐரோப்பிய மொழிகளான பிரெஞ்சு, செருமன், சுபேனிசு போன்றவை தமக்கான தனித்த போன்மங்களைக் கொண்டுள்ளன. இது அந்தந்த மொழிகளின் எண்ணிம இடத்தை உறுதி செய்து தற்கால உலகில் மொழிகளின் இருத்தலை எளிதாக்கியுள்ளது.

முதல் பத்து பெருமொழிப் போன்மங்கள்

தற்போதைய உலகளாவிய நுட்பியல் சந்தையில் கவனம் செலுத்தும் முதல் பத்து பெருமொழிப் போன்மங்கள் என்பன, GPT-4 (OpenAI), Gemini 1.5 Pro (Google), Claude 3 Opus (Anthropic), LLaMA 3 (Meta), Mistral Large (Mistral AI), PaLM 2 (Google), Qwen (Alibaba), Falcon (TII), Grok (xAI), Command R+ (Cohere) ஆகியனவாகும்.

ஆசிய மொழிகளில் பெருமொழிப் போன்மம்

சீனா, யப்பான், தென்கொரியா போன்ற ஆசிய நாடுகள் தங்களின் மொழிகளுக்கான செய்தெட்ப போன்மங்களை உருவாக்குவதில் பெரிய அளவில் முதலீடுகளைச் செய்துள்ளன. சீனாவின் 'Qwen', 'Ernie Bot', தென்கொரியாவின் 'HyperCLOVA X' போன்றவை ஆசிய மொழிகளுக்கான வெற்றிகரமான முன்னெடுப்புகளாகும். இவை ஆங்கிலச் சார்பைக் குறைத்து, ஆசியப் பண்பாட்டுத் தரவுகளின் அடிப்படையில் செயல்படுகின்றன.

ஆங்கிலத்தின் பெருமொழிப் போன்மம்

தற்போதைய பெருமொழிப் போன்மங்கள் பெரும்பாலும் ஆங்கிலத்தை ஒட்டியேக் கட்டமைக்கப்பட்டுள்ளன. இணையத்தில் உள்ள ஒட்டுமொத்தத் தரவுகளில் 60% முதல் 80% வரை ஆங்கிலத்திலேயே உள்ளதால், செய்தெட்பப் போன்மங்கள் ஆங்கிலத்தில் சிந்திக்கவும், தடையின்றி உரையாடவும் மிக எளிதாகப் பயிற்றுவிக்கப்படுகின்றன.

ஆங்கிலம் பெருமொழிப் போன்மமாக உருவாக அடிப்படைகள்

தொடக்கக்கால எண்ணிமமாக்கம் - கணிப்பொறிப் தொழில்நுட்பத்தின் தொடக்கமே ஆங்கில (ASCII) குறியீடுகளில் அமைந்தது.

தரவுக் குவியல் (Data Abundance) - இணையதளங்கள், மின்-நூல்கள், ஆய்வுக் கட்டுரைகள் எனப் பரந்துபட்ட, பிழையற்ற தரவுத்தொகுப்புகள் (Datasets).

பொருளியல், ஆய்வுப் பின்புலம் - சிலிக்கான் வேலி நிறுவனங்களின் பல கோடிக்கணக்கான முதலீடுகள்.

இந்திய மொழிகளில் பெருமொழிப் போன்மம்

இந்தியா போன்ற பன்மொழிச் சமூகத்தில், உள்ளூர் மொழிகளுக்கான செய்தெட்பத்தின் தேவை மிகுதி. 'Bhashini' (இந்திய அரசு), AI4Bharat (சென்னை ஐஐடி), Sarvam AI மற்றும் Krutrim போன்ற நிறுவனங்கள் இந்திய மொழிகளுக்கான பெருமொழிப் போன்மங்களை உருவாக்கும் பணியில் ஈடுபட்டு வருகின்றன.

தமிழ் பெருமொழிப் போன்மத்தின் தற்போதைய நிலை

தமிழுக்கான தனித்த, அடிப்படையிலிருந்து உருவாக்கப்பட்ட ஒரு பெருமொழிப் போன்மம் இன்னும் முழுமை பெறவில்லை. தற்போதுள்ள போன்மங்கள் (சான்று: Tamil LLaMA) ஆங்கில போன்மங்கள் மீது தமிழைப் பயிற்றுவித்து (Fine-tuning) உருவாக்கப்பட்டவையே ஆகும். இவை ஓரளவிற்குச் சிறப்பாகச் செயல்பட்டாலும், மொழியின் ஆழமான இலக்கண அமைப்பை முழுமையாகப் வெளிப்படுத்தவில்லை.

கட்டமைப்புச் சிக்கல்கள்

தமிழ் ஒரு 'ஒட்டுநிலை மொழி'. ஒரு வேர்ச்சொல்லுடன் பல விகுதிகள் இணைந்து புதிய சொற்கள் உருவாகும் (சான்று: 'செய்துகொண்டிருக்கிறார்கள்'). இதனால் 'வில்லைகளாக்கம்' செய்யும் போது, தமிழ் சொற்கள் தேவையற்ற முறையில் பல துண்டுகளாக உடைக்கப்படுகின்றன. இது கணிப்பீட்டுச் சுமையையும் நேரத்தையும் மிகுதியாக்குகின்றது. எனவே தமிழின் இயல்பிற்கேற்ப பல்வகை ஆய்வுகள் செறிவாக நிகழ்த்தப்பெற வேண்டும். தொல்காப்பியம் முதல் இக்கால தமிழ் இலக்கியம், வட்டார வழக்குத் தமிழ் என யாவும் செப்பமான முறையில் கட்டற்ற முறையில், கட்டமைக்கப் பெற்றதாக, பொறிகளும் படிக்கும் வகையில் சீராக உருவாக்கப்பெற வேண்டும்.

தரவுப் பற்றாக்குறை

செய்தெட்பப் போன்மங்களைப் பயிற்றுவிக்க பல டெராபைட் (Terabytes) அளவிலான உயர்தரத் தமிழ் உரை தேவை. விக்கிப்பீடியா, செய்தித் தளங்கள் எனச் சில வளங்கள் இருந்தாலும், பல்துறை சார்ந்த (மருத்துவம், சட்டம், அறிவியல், வேளாண்மை, பொறியியல், நுட்பியல் என) தூய, பிழையற்ற, எண்ணிமத் தமிழ் உரைத் தரவுகள் இணையத்தில் மிகக் குறைவாகவே உள்ளன.

தமிழ் பெருமொழிப் போன்மம் எதிர்கொள்ளும் இடர்கள்

பொருளற்ற உளறல்கள்

தரவுகள் குறைவாக இருப்பதால் பொருளற்ற உளறல்கள் மிகுந்துக் காணப்பெறுகின்றன. சில நேரங்களில் தவறான உரைகளைத் தமிழ் போன்மங்கள் வழங்கக்கூடும்.

வட்டார வழக்குகளின் தரவுகள்

இலங்கை, மலேசியா, கொங்கு, திருநெல்வேலி, கன்னியாகுமரி, தூத்துக்குடி, கரிசல், மதுரை, நாஞ்சில், திருச்சிராப்பள்ளி, தஞ்சாவூர், நடுநாடு, செட்டிநாடு, நீலகிரி, கல்வராயன்மலை, சவ்வாதுமலை, கொடைக்கானல், சென்னை, காஞ்சிபுரம், செங்கல்பட்டு, அறந்தாங்கி, இராமநாதபுரம், புதுச்சேரி என்று தமிழ்நாட்டின் அனைத்து மாவட்டங்களுக்கும் புதுச்சேரிக்கும் பல்வேறு வட்டார வழக்குகளை செய்தெட்பம் முழுமையாகப் புரிந்து கொள்ளாத நிலையுள்ளது. இந்நிலை உடனடியாக மாற்றப்பெற வேண்டும். வட்டார வழக்கு என்னும் மண்மொழி முழுமையான தரவாக மாற்றப்பெற வேண்டும்.

ஆங்கில வல்லாண்மை

சிந்தனை அமைப்பு ஆங்கிலத்தில் இருந்து, அது தமிழுக்கு மொழிபெயர்க்கப்படுவதால் ஏற்படும் செயற்கைத்தன்மையை மாற்ற தமிழின் இயல்பிற்கேற்ப பெருந்தரவுகளின் அடிப்படையில் தன்னியக்கமான மொழிபெயர்ப்புக் கருவிகளை உருவாக்க வேண்டும். எதற்கும் ஆங்கிலத்தை சார்ந்திருக்கும் நிலை மாற வேண்டும்.

தமிழ் பெருமொழிப் போன்மங்களின் வளநிலைகள்

தமிழ் பெருமொழிப்போன்ம உருவாக்கத்திற்கு மதுரைத் திட்டம் உருவாக்கியுள்ள பழங்கால, தற்கால இலக்கியங்களின் மின்-தொகுப்பு மிகவும் பயனுடைய ஒன்றாகும். தமிழ் விக்கிப்பீடியா வாயிலாக ஓரளவிற்குச் செறிவான கலைக்களஞ்சியத் தரவுகள் உருவாகியுள்ளன.

தமிழ்நாட்டு அரசின் முன்னெடுப்புகள்

தமிழ் இணையக்கல்விக்கழகம் உருவாக்கியுள்ள நூலகத்தரவுகள், தரவுக் களஞ்சியங்கள். நாட்டுடையாக்கப்பெற்ற நூல்கள் ஆகியன குறிப்பிடத்தக்க அடிப்படைத் தரவுகளாகும். இத்தரவுகள் இன்னும் சீர்மைபெற வேண்டும்.

தமிழ் பெருமொழிப் போன்மங்களின் தற்போதைய முன்னெடுப்புகள்

அபிநந்த் மற்றும் குழுவினரால் திறமூலமாக (Open-source) வெளியிடப்பட்ட Tamil-LLaMA, AI4Bharat அமைப்பின் IndicLLM போன்றவை குறிப்பிடத்தக்க முன்னெடுப்புகளாகும். இவை LLaMA போன்ற அடிப்படை மாதிரிகளில் தமிழின் Tokenizer-ஐ மேம்படுத்திப் பயிற்றுவிக்கப்பட்டுள்ளன.

பண்பாட்டுப் புரிதல்

ஒரு சிறந்த தமிழ் போன்மம் என்பது வெறும் மொழியாக்கக் கருவி அல்ல; அது தமிழ்ப் பண்பாட்டை உள்வாங்கியதாக இருக்க வேண்டும். கழக இலக்கியங்கள் முதல் தற்கால இலக்கியங்கள் வரையிலான விழுமியங்கள், தமிழர்களின் வாழ்வியல், நகைச்சுவை உணர்வு, மரபுகளை ஒரு செய்தெட்பப் போன்மம் உள்ளடங்கியதாக உருவாக வேண்டும்.

மின்னகராதிகளின் தரவுத்தளம்

செறிவான, பன்முகத்தன்மை கொண்ட மின்னகராதித் தரவுகள் (E-Dictionaries) நேரிடையாக போன்மங்களின் பயிற்றுவிப்பிற்கு அளிக்கப்பட வேண்டும். தமிழ்ப்பேழை (https://mydictionary.in/) என்னும் தளத்தில் 72-க்கும் மேற்பட்ட அகராதிகள் படைப்பாக்கப் பொதும உரிமத்தின்கீழ் 160 துறைகளுக்கு 16 இலக்கத்திற்கும் மேற்பட்ட தரவுகள் 1.5 கோடிக்கும் மேற்பட்ட விளக்கங்களுடன் அளிக்கப்பெற்றுள்ளன. தமிழ் விக்சனரி, சொற்குவை ஆகிய தளங்களின் தரவுகள் குறிப்பிடத்தக்க ஒன்றாகும். சொற்குவையின் தரவுகள் பயன்பாட்டு நிரலாக்க இடைமுகத்துடன் வழங்கப்பெற வேண்டும்.

வேர்ச்சொல் அடிப்படையிலான அருங்கலைச்சொற்கள்

பிறமொழிச் சொற்களின் ஒலிபெயர்ப்புகளாக இல்லாமல், தமிழ் வேர்ச்சொற்களில் இருந்து பெறப்பட்ட தூய கலைச்சொற்களைப் போன்மங்களுக்குக் கற்பிக்க வேண்டும். தமிழின் அனைத்துச் சொற்களுக்குமான வேர்ச்சொல் தரவுகள் கட்டற்ற முறையில், ஒன்றிணைக்கப் பெற்ற தரவுகளாக, கட்டற்ற முறையில், ஒலிக்குறிப்புகளுடன், பொறிகளும் படிக்கும் வகையில் உருவாக்கப்பெற வேண்டும்.

தமிழ் பெருமொழிப் போன்மங்களின் எதிர்காலவியல்

எதிர்காலத்தில் தமிழுக்கென தனித்த சிறப்பான 'அடித்தளப் போன்மங்கள்' உருவாக்கப்படும். இவை குரல் வழி உள்ளீடுகளை நேரடியாகப் புரிந்து கொண்டு செயல்படும் பன்முகப் போன்மங்களாக (Multimodal LLMs) உருவெடுக்கும். கல்வி, தொலை-மருத்துவம், வேளாண் வழிகாட்டுதல், மின்-ஆளுமை அனைத்துத்துறைகளில் இவை பெரும் புரட்சியை ஏற்படுத்தும். அனைத்துத் துறைகளின் அடிப்படைத்தரவுகளும் செய்தெட்பத்தின் புரிதல்களுடன் கட்டற்றத் தரவுகளாக, பொறிகளும் படிக்கும் வகையில் உருவாக்கப்பெற வேண்டும். தமிழின் தரவுகள் பயன்பாட்டு நிரலாக்க இடைமுகம் கொண்டவையாக இருப்பதை உறுதி செய்ய வேண்டும்.

தமிழ் பெருமொழிப் போன்ம உருவாக்கத்திற்கான செலவினம்

ஒரு பெருமொழிப் போன்மத்தை அடிப்படையிலிருந்து பயிற்றுவிக்க, ஆயிரக்கணக்கான GPU-கள் (Graphics Processing Units) தேவை. தரவுகளைச் சேகரித்தல், தூய்மைப்படுத்துதல் (Data Cleaning), மாந்த மதிப்பீட்டாளர்களைக் கொண்டு சீரமைத்தல் (RLHF) என்று அதற்கான மின்சாரச் செலவு, உழைப்பு, இணையம், கருவிகள் இதர வசதிகள் என இதற்குப் பற்பல-கோடிகள் முதலீடாகத் தேவைப்படும். தமிழை ஆட்சி, தேசிய மொழியாகக் கொண்டுள்ள நாடுகள் இது குறித்து முடிவெடுக்க வேண்டும்.

முடிவுரை

தமிழ் மொழி எண்ணிம உலகில் தனது நிலைத்தன்மையை உறுதி செய்ய, அதற்கான வலுவான பெருமொழிப் போன்மங்கள் காலத்தின் கட்டாயம். ஆங்கிலச் சார்பு போன்மங்களில் தமிழைப் பொருத்துவதை விடுத்து, தமிழின் இலக்கண, கட்டமைப்பு விதிகளுக்கு ஏற்பப் புதிய போன்மங்களை உருவாக்குவதே மொழியின் எதிர்காலத்தைக் காக்கும். தற்போது தமிழின் இலக்கிய, இலக்கண, உரை வளங்கள், ஒலி வளங்கள், பட ஆவணங்கள், விழிய, பிற-ஆவண வளங்கள், ஒளி-ஒலி வளங்கள் இன்னும் எண்ணிமப்படுத்தப் பெறாமல் உள்ளன. இந்நிலை மாற வேண்டும்.

ஆய்வுப் பரிந்துரை

1. தமிழின் ஒட்டுநிலைத் தன்மைக்கு ஏற்ற புதிய வில்லையாக்கம் சார்ந்த நிரல்களையும் கட்டமைக்கப்பெற்ற தரவுகளையும் உருவாக்குவது குறித்து தனித்த பேராய்வுகள் மேற்கொள்ளப்பட வேண்டும்.

2. தரமான, திறமூல (Open-source) தமிழ் உரைத் தரவுத்தொகுப்புகளை (Tamil Text Corpora) உருவாக்கும் கூட்டு முயற்சிகள் முடுக்கிவிடப்பட வேண்டும்.

3. தமிழ்நாட்டு அரசின் துறைகள், வாரியங்கள், அரசு சார்புடைய தன்னாட்சி நிறுவனங்கள் ஆகிவற்றின் இணைய தளங்கள் பயன்பாட்டு நிரலாக்க இடைமுகம் கொண்டதாக அமைய வேண்டும்.

4. பெருமொழிப் போன்ம உருவாக்கத்திற்கு தமிழ்நாடு அரசு முழுமையான நிதி ஒதுக்கீட்டினைச் செய்ய வேண்டும்.

5. தமிழின் பெருமொழிப் போன்ம உருவாக்கத்திற்கு நடுவண் அரசு முழுமையான நிதி ஒதுக்கீட்டினைச் செய்ய வேண்டும்.

6. தமிழ் ஆட்சி மொழிகளாக உள்ள இலங்கை, சிங்கப்பூர் அரசுகள் இத்திட்டத்திற்கு நிதியளித்து ஆய்வுகளை மேம்படுத்த வேண்டும்.

7. தமிழர்கள் இணையத்தில் தமிழில் கட்டற்ற முறையில் எழுதுவதை இன்னும் மேம்படுத்த வேண்டும்.

8. எண்ணிமப் பணிகளின் கற்றல், கற்பித்தல், ஆராய்ச்சிப்பணிகளை மேம்படுத்த தமிழ் எண்ணிமப் பல்கலைக்கழகம் ஒன்றினை தமிழ்நாடு அரசு உடன் உருவாக்க வேண்டும்.

9. உருபனியல் வில்லைகளாக்கம்: தமிழ் இலக்கணத்தின் வேர் மற்றும் விகுதிகளைச் சிதைக்காத புதிய திறமூல வில்லைகளாக்க நெறிமுறைகளை உருவாக்குதல்.

10. தூய தமிழ்க் கலைச்சொற்கள் அடங்கிய அகராதித் தரவுத்தளங்களைப் பெருமொழிப் போன்மப் பயிற்சிக்காகப் பொதுவெளியில் விரிவுபடுத்துதல்.

11. தரமான தமிழ் உரைத்தரவுகளை உருவாக்க அகராதியியல் வல்லுநர்கள், மொழியியல் ஆய்வாளர்கள் மற்றும் மென்பொருளாளர்களை ஒருங்கிணைந்து செயல்படும் அமைப்புகளை உருவாக்க வேண்டும்.

ஆய்வுப் பரவல்

தமிழின் பெருமொழிப் போன்மங்களை உருவாக்க தமிழ்நாடு, இலங்கை, சிங்கப்பூர், மலேசிய, இந்திய ஒன்றியத்தில் தமிழர் வாழும் மாநிலங்களின் வட்டார வழக்குகள் பதிப்புரிமை, காப்புரிமை அற்ற கட்டற்ற முறையில் பொறிகளும் படிக்கும் வகையில் ஒருங்கிணைக்கப் பெற்றதாக செந்தரத்துடன் உருவாக்கப்பெற வேண்டும்.

சான்றாதாரங்கள்

பெருமொழிப் போன்மங்களின் அடிப்படை மற்றும் கட்டமைப்பு (Transformer Architecture)

* Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998-6008.

தமிழ் LLaMA மற்றும் தமிழியல் தரவுகள் (Tamil-LLaMA)

* Balachandran, A. (2023). Tamil-LLaMA: A new paradigm for Tamil natural language processing. arXiv preprint arXiv:2311.05845. https://doi.org/10.48550/arXiv.2311.05845

இந்திய மொழிகளுக்கான AI மற்றும் IndicLLM (AI4Bharat / Bhashini)

* Gala, J., Doshi, P., Shah, R., & Khapra, M. M. (2023). IndicLLM: A suite of language models for Indian languages. arXiv preprint arXiv:2308.16335.

* Ministry of Electronics and Information Technology (MeitY). (2022). Bhashini: National Language Translation Mission. Government of India.

உலகளாவிய பெருமொழிப் போன்மங்கள் (GPT-4, LLaMA)

* OpenAI. (2023). GPT-4 technical report. arXiv preprint arXiv:2303.08774.

* Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., ... & Scialom, T. (2023). Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288.

ஒட்டுநிலை மொழிகளின் வில்லைகளாக்கச் சிக்கல்கள் (Tokenization & Agglutinative Languages)

* Kudo, T., & Richardson, J. (2018). SentencePiece: A simple and language independent subword tokenizer and detokenizer for neural text processing. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations (pp. 66-71). Association for Computational Linguistics.

தமிழ் இலக்கிய, அகராதியியல் தரவுகள்

* TamilPelai. (1998-2024). Open access repository of Tamil lexicography works. (இணையமுகவரி: https://MyDictionary.in/)

* Project Madurai. (1998-2024). Open access repository of Tamil literary works. (இணையமுகவரி: http://www.projectmadurai.org)

*****

கட்டுரை - அறிவியல் & தொழில்நுட்பம் | முனைவர் தமிழ்ப்பரிதி மாரி | படைப்பாளர்கள்

இது முத்துக்கமலம் இணைய இதழின் படைப்பு.

இணைய பக்க முகவரி: http://www.muthukamalam.com/essay/scienceandtechnology/p16.html

அச்சிட

விமர்சிக்க

விருப்பத் தளமாக்க

Previous Home Pages

முந்தைய முகப்புப் பக்கங்கள்

2026

  2025
  2024
  2023
  2022
  2021
  2020
  2019
  2018
  2017

முத்துக்கமலம் குறித்த ஆய்வுகள்

முனைவர் பட்ட ஆய்வுகள்

ஆய்வியல் நிறைஞர் பட்ட ஆய்வுகள்
ஆய்வுக் கட்டுரைகள்

முத்துக்கமலம் - சிறப்புத் தகவல்கள்

தமிழ்நாடு பாடநூல் - தகவல்

  கல்லூரி பாடத்திட்டம் - தகவல்
  அச்சிதழ் - தகவல்கள்
  தமிழ் வலைப்பூ - தகவல்கள்
  கருத்தரங்குகள் மற்றும் மாநாடுகள்

கதைகள்

சிறுகதை

  தொடர்கதை
  நாட்டுப்புறக் கதைகள்
  இஸ்லாமிய நீதிக்கதைகள்
  குறுங்கதைகள்
  சங்க இலக்கியக் கதைகள்
  மொழிபெயர்ப்புக் கதைகள்

கட்டுரைகள்

கட்டுரைத் தொகுப்புகள்

  பொதுக் கட்டுரைகள்
  இலக்கியம்
  சமூகம்
  வரலாறு
  அறிவியல் & தொழில்நுட்பம்
  சட்டம்
  எப்படி?
  மனம் திறந்து
  தொடர் கட்டுரைகள்
  கருத்தரங்கக் கட்டுரைகள்

சிறுவர் பகுதி

கதை

  கட்டுரை
  கவிதை
  குட்டிக்கதை
  நிகழ்வுகள்
  பொன்மொழிகள்
  விடுகதைகள்
  புதிர்கள்
  தகவல்கள்
  மொழிபெயர்ப்புக் கதைகள்
  தொடர்கதைகள்

மருத்துவம்

பொது மருத்துவம்

பல் மருத்துவம்

ஓமியோபதி மருத்துவம்

ஆயுர்வேத மருத்துவம்

அக்குபஞ்சர் மருத்துவம்

சித்த மருத்துவம்

இயற்கை மற்றும் யோகா மருத்துவம்

உளவியல் மருத்துவம்

இயன்முறை மருத்துவம்

பிற மருத்துவங்கள்

பொதுத் தகவல்கள்

வலையொளிப் பதிவுகள்

பெரியார் சொல்லும் திராவிடத் திருமணங்கள்

எம்.ஜி.ஆர் நடித்த திரைப்படங்கள்

சைனிக் பள்ளி சேர்க்கைக்கான நுழைவுத்தேர்வு

கௌரவர்கள் யார்? யார்?

தமிழ் ஆண்டுப் பெயர்கள்

பிள்ளையார் சுழி வந்தது எப்படி?

வருவது போவது, வந்தால் போகாது, போனால் வராது...?

பண்டைய படைப் பெயர்கள்

ஸ்ரீ அன்னை உணர்த்திய மலர்கள்

மாணவன் எப்படி இருக்க வேண்டும்?

மரம் என்பதன் பொருள் என்ன?

நீதி சதகம் கூறும் நீதிகள்

மூன்று மரங்களின் விருப்பங்கள்

மனிதன் கற்றுக் கொள்ள வேண்டிய குணங்கள்

மனிதனுக்குக் கிடைத்த கூடுதல் ஆயுட்காலம்

யானை - சில சுவையான தகவல்கள்

ஒரு இரவுக்குள் நாலு கோடி பாடல்

புகழ்ச்சிக்குப் பின்னால் வருவது...?

நான்கு வகை மனிதர்கள்

தேனி எஸ். மாரியப்பன் சிரிப்புகள் - I

மாபாவியோர் வாழும் மதுரை

கிருபானந்த வாரியார் பொன்மொழிகள் - I

தமிழ்நாட்டு மக்களுக்கு ஒன்னு வைக்க மறந்துட்டானே...?

  குபேரக் கடவுள் வழிபாட்டு முறை

  மூன்று வகை மனிதர்கள்

  உலக மகளிர் நாள் விழா - முத்துக்கமலம் உரை

இலவசத் தமிழ் நூல்கள்

முதன்மைப் படைப்பாளர்கள்

முனைவர் சி. சேதுராமன்

பாளை. சுசி

தேனி. எஸ். மாரியப்பன்

பாவலர் கருமலைத்தமிழாழன்

செண்பக ஜெகதீசன்

பாரியன்பன் நாகராஜன்

முனைவர் தி. கல்பனாதேவி

சசிகலா தனசேகரன்

"இளவல்" ஹரிஹரன்

முனைவர். மு. பழனியப்பன்

வாசுகி நடேசன்

பா. காருண்யா

வயல்பட்டி கண்ணன்

கவிதா பால்பாண்டி

சுதா தாமோதரன்

ராஜேஸ்வரி மணிகண்டன்

மாணிக்கவாசுகி செந்தில்குமார்

வலைப்பூவில் முத்துக்கமலம் இணைக்க...

<!---Muthukamalam Link starts ---><p><center><a href="http://www.muthukamalam.com/?"><img border="0" src="http://www.muthukamalam.com/picture/muthukamalam%20logo2.JPG" alt="Linked to muthukamalam.com" width="184" height="47"></a></p></center><!---Muthukamalam Link ends --->

சிரிக்க சிரிக்க

எரிப்பதா? புதைப்பதா?

அறிவை வைக்க மறந்துட்டானே...!

செத்தும் செலவு வைப்பாள் காதலி!

வீரப்பலகாரம் தெரியுமா?

உங்களுக்கு ஒண்ணுமே இல்ல...!

இலையுதிர் காலம் வராது!

கண்ணதாசனின் நகைச்சுவைகள்

குறைச்சுத்தான் எடை போடறாரு...!

அவருக்கு ஒரு விவரமும் தெரியலடி!

குனிஞ்ச தலை நிமிராத பொண்ணு...?

இடத்தைக் காலி பண்ணுங்க...!