Sunday, August 24, 2003

மொழியியற் பார்வையில் தமிழ் குறியீடு

இது காலையில் நடந்திருக்க வேண்டியது. முனைவர் இராம.கி யின் தாள். நடத்துனர்கள் இதைச் சம்பந்தா சம்பந்தமில்லாது கடைசியாக ஏதோ ஒரு அமர்வில் போட்டதோடு மட்டுமில்லாமல், இதன் தலைவராக இருந்த இராசேந்திரன் என்பவர் ஒரேயடியாக பிளேடு போட்டு ஒரு 45 நிமிடத்திற்கும் மேலாக அறுத்துத் தள்ளி விட்டாராம். பக்கத்து அறையிலிருந்து நான் அவசர அவசரமாக கடைசியாக இருக்கும் இந்தப் பேச்சைக் கேட்க ஓடிவர உள்ளே இருந்தவர்கள் இன்னும் தலைவர் (பிளேடு) உரையே முடியவில்லை என்று சொல்ல மீண்டும் அடுத்த அறைக்கு ஓடி அங்கு நடந்த கேள்வி பதில்களில் கலந்து கொண்டு பின்னர் 30 நிமிடங்களுக்குப் பின்னர் மீண்டும் வந்தேன்.

நான் கவனித்தவை:

* இப்பொழுதுள்ள யூனிகோடில் உயிரும், அகரமேறிய உயிர்மெய்யும் உள்ளது. மெய்யே இல்லை.
* இது மொழியியல் பார்வையில் தவறானது
* கணினியில் சேமித்து வைக்க மெய்யும், உயிரும் தனித்தனியே இருந்தால் போதுமானது
* நாம் காண்பதற்கு மட்டுமே உயிர்மெய் எனப்படும் குறியீடு தேவைப்படுகிறது
* இதற்கு தனி lookup table வைத்து திரையில் காண்பிக்க மட்டும் வைத்துக் கொள்ளலாம்

அப்பொழுது பின்னால் அமர்ந்திருந்த பார்வையற்றவரான முனைவர் ஜெயச்சந்திரன் என்பவர் பார்வையற்றோருக்கான தமிழ் braille முறையில் வெறும் 31 குறியீடுகளே (12 உயிர், 18 மெய், ஆய்தம்) என்றும், அதுவே அவர்களுக்குப் போதுமானது என்றும் சொன்னார்.

இராம.கியும் இவ்வாறு செய்கையில் மொழியியல் முறையில் 'அப்பால்' என்னும் சொல்லைத் தேடுகையில் 'அவனுக்கப்பால்' என்ற சொல்லின் 'அப்பால்' என்பதும் சரியாக வரும், என்றும் இப்பொழுதுள்ள குறியீட்டு முறையில் அது சரியாக வராது என்றும் குறிப்பிட்டார். (வரவேண்டுமென்றால் மென்பொருள் இன்னும் காம்பிளெக்ஸாக இருக்க வேண்டும்).

நேரம் நிறைய ஆனதால், இந்த அமர்வும் அவசரமாக முடிக்கப்பட்டு அனைவரும் காப்பியும், தேநீரும் அருந்தப் புறப்பட்டனர்.

இதன் பிறகு அண்ணா பல்கலைக் கழகத்தில் நிறைவு விழாவிற்கு அனைவரும் சென்று விட்டனர்.

தொழில்நுட்பமும் பயன்பாடும்

அன்பரசன், ஆப்பிள்சாஃப்ட் என்னும் நிறுவனத் தலைவர் மைக்ரோசாஃப்ட் OSகளைத் தமிழாக்குவது பற்றிப் பேசினார். இவருகும் தமிழக அரசு நிதி உதவி செய்துள்ளது. அதன் மூலம் 'ஜனனி' என்னும் மென்பொருளை உருவாக்கியுள்ளார். (நிதி உதவி 5 லட்சம் ரூபாய்கள்)

மென்பொருள்களை லோக்கலைஸ் செய்வதில் மூன்று முறைகள் கடைப்பிடிக்கப் படுகின்றனவாம்.
* மூலத்தின் உள்ளேயே தமிழைப் புகுத்தி அதை மீண்டும் கம்பைல் செய்வது. இது ஓப்பன் சோர்ஸ் வகையைச் சார்ந்ததில்தான் முடியும்
* கம்பைல் செய்யப்பட்ட எக்ஸிகியூட்டபிலை மாற்றுவது
* மூன்றாவது ரன் டைம் முறையில், இயங்கும் போதே திரையில் தமிழ் மெனுக்கள், தமிழிலே செய்திகள் என்று செய்வது

ஜனனி இந்த ரன் டைம் முறையில் இயங்குவதாம். இது இப்பொழுது தமிழ்நாடு அரசிடம் வழங்கப்பட்டுள்ளதாகவும் அவர்கள்தான் இனி இதை என்ன செய்வது என்று தீர்மானிக்க வேண்டும் என்றும் சொன்னார். இவர் தன் எழுதிய சோர்ஸ் கோடை அரசிடம் கொடுக்கப் போவதில்லை என்றும், அவ்வாறு கொடுத்தால் அந்த சோர்ஸை அரசு சரியாகக் காப்பாற்றுமா என்று தனக்கு நம்பிக்கையில்லை என்றும், அது பிறர் கைக்குப் போய் அவர்கள் தனி லாபமடையலாம் என்று தான் நினைப்பதாகவும் சொன்னார்.

அதே நேரத்தில் தான் மற்றுமொறு செயலி செய்வதாகவும் (அதன் பெயர் லோக்கலைசர்) அது யூனிகோடிலும் இயங்கும் என்றும் ஜனனியில் உள்ள ஒரு சில தொல்லைகளைக் களையும் என்றும் அதை எவ்வாறு சந்தைக்குக் கொண்டு வருவது என்று இன்னும் முடிவு செய்யவில்லை என்றும் சொன்னார்.

தொழில்நுட்பமும் பயன்பாடும்

மதிய உணவு இடைவேளைக்குப் பின்னர் நிகழ்ந்த இந்த நிகழ்ச்சியில் எழுத்தாளர் சுஜாதா பங்கேற்றார். தனக்கே உரிய குத்தல் நகைச்சுவை பாணியில் "தமிழ்க்கணினி - சில சிந்தனைகள்" பேசினார். இது ஒன்றுதான் லினக்ஸ் சம்பந்தமான தாள்.

sujathaபேசுகையில் குடியரசுத் தலைவர் அப்துல் கலாம் உரையிலிருந்து கீழுள்ளவற்றை மேற்கோள் காட்டினார்.
- தேடு இயந்திரத்திற்கான தரவு தளங்கள் தமிழில் இருக்க வேண்டும்
- open source முறையைப் பயன்படுத்தி தமிழில் மென்பொருள்கள் செய்ய வேண்டும்
- தமிழில் தேடுவதற்கு ஏற்புடைய இணைய பக்கங்கள் வேண்டுமெனில் நாம் யூனிகோடு எழுத்துருவை நடைமுறைக்குக் கொண்டுவரவேண்டும்
- பிற மொழி இணையப் பக்கங்கள் தானாகவே தமிழில் வருமாறு செய்ய வேண்டும்

இவையெல்லாம் தான் பேசவிருந்த விஷயங்களோடு ஒத்துப்போவதாகச் சொன்னார்.

அவர் சொன்னது:

* இந்திய மொழியிலேயே தமிழில்தான் உள்ளிடுவதற்குப் பல முறைகள், அதிக பட்ச குறியீடுகள்
* இனிமேல் எதாவது ஒரு குறியீடு கொண்டுவந்தால் அவர்களை அல்-உம்மா, பஜ்ரங்க தல் ஆகியோரிடம் விட்டு விடுவோம். அல்லது போடா சட்டத்தில் இரவோடு இரவாக உள்ளே போடுவோம் (புரியாதவர்களுக்கு: இது ஜோக்)
* யூனிகோடில் தொல்லைகள் உள்ளது, மாற்றும் முயற்சிகள் எடுத்துக் கொண்டாலும், இப்பொழுதே இருக்கும் யூனிகோடுக்கு மாறுவது நல்லது. மாற்றங்கள் ஏற்படும் போது அதை உள்ளடக்கிக் கொள்ளலாம்.
* இப்பொழுதிருக்கும் பல உள்ளீடு முறைகளில் இரண்டு மட்டும் பிழைத்து, அதுவும் பின்பு ஒன்றாக மாறிவிடும்
* இப்பொழுது முழுமையான இயங்கு தளத்தை உருவாக்கும் முயற்சி ரெட் ஹாட் இந்திய மற்றும் தமிழ் இணைய பல்கலைக் கழகத்தின் உதவியோடு செயல்பட்டுக் கொண்டிருகிறது (தமிழ் இணையப் பல்கலைக் கழகம் நிதியுதவி செய்துள்ளது)

* இப்பொழுது பல ஆர்வலர்கள் செய்திருக்கும் KDE மொழிமாற்றத்தில் பல தவறுகள் உள்ளன. அது போல பாரதீய ஓப்பன் ஆஃபீஸிலும் மொழியாக்கம் முழுமையாக முடிக்கப்படவில்லை.
* முதலில் செய்து முடிக்க வேண்டியது முழுக் கலைச்சொல்லாக்கம். அதில்தன் முழுமஈயக ஈடுபட்டுள்ளதாகச் சொன்னார்.

இணையத்தில் நடந்து கொண்டிருக்கும் முயற்சிகளில் நேரிடையான பங்கு இல்லாததால் அதைப்பற்றி எதுவும் பேசவில்லை.

உலகில் வெவ்வேறு பாகங்களில் நடைபெறும் தமிழ் லினக்ஸ் முயற்சிகள் ஒருங்கிணைக்கப் பட வேண்டும்.

தொழில்நுட்பமும் பயன்பாடும்

தமிழில் சொல்-திருத்தி, syntactic parser, text analyser மற்றும் context-free grammar பற்றிய நான்கு தாள்கள் இந்த அமர்வில் படிக்கப்பட்டன. நான் உள்ளே வருவதற்கு நிறைய நேரம் ஆகி விட்டது. அப்பொழுது தொல்காப்பியரின் வெண்பாவுக்கான இலக்கணத்தை நோம் சோம்ஸ்கியின் natural language processing பற்றியவைகளோடு ஒப்பிட்டு ஒரு மென்பொருளையும் எழுதி அதன் மூலம் வெண்பாக்களை அசை, சீர் என்று பிரித்து அவை சரியான தளைகளில் அமைந்துள்ளதா என்று சரி பார்க்க முடியும் என்றனர். இதை எழுதியது பாலசுந்தர ராமன், ஈஷ்வர், சஞ்சீத் குமார் ரவிந்திரநாத் ஆகிய IIIT பெங்களூர் காரர்கள்.

இதன் அடுத்த படியாக மற்ற பாக்கள், பின் அதிலிருந்து உரைநடை ஆகியவற்றுக்கு syntax, semantics analyserகளை எழுதி அதன் மூலம் இலக்கண விதிகளுக்குள் இருக்கிறதா என்று கண்டு பிடிப்பது. இது கணினிக்குள் எழுதி உள்ளிடுவதை வெறும் மின் அகராதி மூலம் சொல்-திருத்துவது மட்டுமல்லாது முழு வரிகளையும் திருத்த முடியும்.

இது பற்றிய கட்டுரைகள் நான் மேலேற்றிய கோப்பிலிருக்கும். எனக்கு இதைப் பற்றி மேலே எழுதுவது விஷய ஞானம் இல்லாத காரணத்தால் இயலாதது.

தமிழ் மென்பொருட்கள்

16 பிட் குறியீடு விவாதம் நடக்கையில் அதே நேரம் மென்பொருள் பற்றிய மற்றொரு கருத்தரங்கு நடந்து விட்டது. இரண்டும் ஒன்றுக்கடுத்தது ஒன்றாக நடப்பதாகத்தான் முதலில் இருந்தது. இதனால் அருள் குமரன் போன்றோர் பேசியதைக் கேட்க முடியாது போய் விட்டது. அவருக்கும் வருத்தம் (பெருந்தலைகள் எல்லாம் 16 பிட் சண்டைக்குப் போய்விட்டன, சொன்னதைக் கேட்க சரியான ஆளில்லை என்று), எனக்கும் வருத்தம்.

இனி மதியம், இந்த மாநாட்டின் ஒரே ஒரு லினக்ஸ் பற்றிய கட்டுரை. எழுத்தாளர் சுஜாதா வழங்குவது. பின்னர் மற்றுமொரு கருத்தரங்கில் இராம.கி பேசுவது. இவற்றைப் பற்றித்தான் நான் எழுத முடியும்.

மீண்டும் சந்திப்போம்.

16 bit குறியீடு பற்றிய விவாதம்

விவாதம் சூடு பறக்க ஆரம்பித்தது. ஆப்பிள்சாஃப்ட் நிறுவனத்தின் அன்பரசன் மிகக் காட்டமாக கிருஷ்ணமூர்த்தியின் முடிவுகளை எதிர்த்தார். மேலும் மேலும் இடம் கேட்டால் கொடுக்க யூனிகோடிடம் இடம் இல்லாமல், 16bit என்பது 32bitக்குப் போய் விடும் (ஏற்கனவே விட்டது!) எனவே 33% இடம் குறையும் என்பது போய் யூனிகோட் வேண்டுமென்றால் 4 மடங்கு இடம் அதிகமாகும் என்ற நிலை வரும் என்றார்.

மேலும் "efficiency" என்ற காரணத்தைக் காட்டி அதிகமாக இடம் கேட்டால் யூனிகோட் கன்சார்ஷியம் கொடுக்காது என்றும், இப்பொழுதுள்ள தமிழ் யூனிகோட் வேலை செய்யவில்லை, உடைந்திருக்கிறது என்றால்தான் அவர்கள் மாற்ற அனுமதிப்பார்கள் என்றார்.

இந்த மூன்றாவது குறியீடு ஏற்கனவே யூனிகோட் கன்சார்ஷியத்திடம் கொடுக்கப்பட்டதாகவும், அவர்கள் இதை நிராகரித்து விட்டனர் என்றும் தன்னிடம் சொல்லப்பட்டது என்று முத்து நெடுமாறன் கூறினார். அதைத் தொடர்ந்து விவாதம் மேலும் வலுத்தது. மாலன் எதற்காக ஏற்கனவே நிராகரிக்கப்பட்ட ஒன்றை மீண்டும் கன்சார்ஷியத்திடம் கொண்டு செல்ல வேண்டுமென்று கேட்டார். கிருஷ்ணமூர்த்தி அதப் பற்றித் தனியாக என்னிடம் பேசுகையில் ஒரு முறை நிராகரித்தார்கள் என்பதற்காக அதை விட்டு விட முடியாது. சரியாக இன்னொருமுறை கேட்டுப் பார்ப்போமே என்றார்.

ஏன் நாம் தமிழக அரசிடம் இந்த மூன்றாவது குறியீட்டினைப் பரிந்துரைக்கக் கூடாது என்று கேட்கையில் அருண் மகிழ்நன் (உத்தமம் நிர்வாக இயக்குனர்) எவ்வாறு உத்தமம் இயங்குகிறது என்பதைப் பற்றி விளக்கி, முதலில் இது ஒரு working groupஇல் ஆலோசிக்கப்பட்டு, அவர்கள் பரிந்துரை செய்த பின்னர், executive committeeஇல் எடுத்துச் செல்லப்பட்டு பின்னர்தான் அரசுக்குப் பரிந்துரை செய்யப்படும் என்றும், இப்பொழுது பேசப்பட்ட குறியீடு இன்னும் சரியாக working groupக்கு வழங்கப்படவில்லை என்றார்.

ஆகவே இந்த விவாதங்கள் இன்னும் நடக்கும். அதுவரையில் யூனிகோடில் இன்னும் சில மென்பொருட்கள், செயலிகள், வலைப்பதிவுகள் மற்றும் பல இணைய தளங்கள் வந்துவிடும்.

கிருஷ்ணமூர்த்தி சொல்வதில் பல நல்லதுகள் இருந்தாலும் அவை எப்பொழுது, எப்படி செயலுக்கு வரும் என்பது புரியவில்லை.

மதியம் முனைவர் இராம.கி இப்பொழுதுள்ள குறியீட்டில் உள்ள தவறுகளைப் பற்றிப் பேசப் போகிறார். அது பற்றி பின்னர்.

16 bit குறியீடுகளில் மாற்றங்கள்

அடுத்து பேச வந்த முனைவர் கிருஷ்ணமூர்த்தி தான் தமிழ் இணையப் பல்கலைக்கழகத்தின் சார்பில் பேசுவதாகத் தெரிவித்தார்.

முதலிலேயே இப்பொழுதுள்ள யூனிகோட் தமிழில் எல்லாமே செய்ய முடியும் என்றும் அதில் உள்ள குறைபாடுகள் என்ன என்பதைப் பற்றியும், மாற்றுக் குறியீடுகளால் என்ன சாதிக்க முடியும் என்பதைப் பற்றி மட்டும்தான் பேசப் போவதாகவும் தெரிவித்தார். "சண்டை போடப் போவதுமில்லை, உடனடியாக முடிவெடுக்க வேண்டிய கட்டாயமும் இல்லை" என்றும் தெரிவித்தார்.

மூன்று குறியீடுகளைப் பற்றி ஒப்பு நோக்கினார். முதலாவது இப்பொழுது இருக்கும் குறியீடு. இரண்டாவது சில மாற்றங்கள் செய்யப்பட்ட, அதாவது இப்பொழுதிருக்கும் அகர மெய்க்கு பதில் வெறும் மெய், மற்றும் ஒரி சில சிறு திருத்தங்கள், மூன்றாவது உள்ள அத்தனை 247 எழுத்துக்களுக்கும் தனி இடம் என்று. இவற்றில் மூன்றாவதற்கு 128க்கு மேல் இடம் தேவைப்படுவதால் 3x128=384 இடம் (அதை 512 என்று கேட்டு வாங்கி, தேவையில்லாவிட்டால் 128ஐ திருப்பிக் கொடுத்து விடலாம் என்றார்).

இவ்வாறு மூன்று குறியீட்டை வைத்து ஒரு சில சோதனைகள் செய்து அதன் முடிவுகளைக் காண்பித்தார். அதன்படி

* மூன்றாவது குறியீட்டில் கிட்டத்தட்ட 33% கோப்புகளில் இடம் குறைகிறது.
* கணினி கோப்புகளைப் படிக்கையில் 33% வேகமாகச் செய்கிறது. எழுத்துக்களைத் திரையில் காண்பிப்பது வெறும் 4% நேரத்துக்குள் முடிகிறது (முதல் குறியீட்டை நோக்குகையில்)
* கோப்பிற்குள் தேடி மாற்றுவது 40% நேரத்துக்குள் முடிவடைகிறது
* கோப்புகளை குறுக்கி (compress) வைப்பதில் பெரிய சேமிப்பு ஒன்றும் இல்லை. இரண்டும் ஒரே மாதிரிதான்.
* database storage no change, indexing 33% improvement
* Morphological database - noun search 80% improvement

16 bit குறியீடுகள்

முதலில் பேச வந்தவர் முத்து நெடுமாறன். இவர் முரசு அஞ்சல் மென்பொருள் கொடுத்தவர். தற்போதைய யூனிகோட் மூலம் என்னவெல்லாம் செய்ய முடியும் என்பது பற்றிப் பேசினார்.

* யூனிகோட் வி.3.0 இல் மொத்தம் 49,194 எழுத்துக்கள் (எழுத்து, மற்ற குறியீடு) உள்ளது.
* Windows, Linux, MacOS, Palm OS, WIN CE, Symbian ஆகியவை தற்போது யூனிகோட் மற்றும் இண்டிக் ஆகியவற்றைப் புரிந்து கொள்கிறது
* இணைய தளங்கள் இயங்கத் தேவையான HTML 4.0, XML, Java, Javascript போன்றவை யூனிகோடைப் புரிந்து கொள்கின்றன
* MS Office, Open Office, IE (மற்றும் Mozilla கூட) ஆகிய மென்பொருட்கள் யூனிகோடைப் புரிந்து கொள்கின்றன

யூனிகோடைப் பற்றி சற்று விளக்கம் கூறினார். எழுத்துக் குறியீட்டை எவ்வாறு வைக்கின்றனர், அதிலிருந்து திரையில் தோன்றும் வரி வடிவம் (glyph) எவ்வாறு செயல்படுத்தப் படுகிறது (GSUB, GPOS) என்று விளக்கினார்.

TNC வெங்கட ரங்கன் இணையத்தில் நேரிடையாக எவ்வாறு யூனிகோட் மூலம் இணையப் பக்கங்களைத் தேடுவது, கணினியில் கோப்பில் எழுதுவது, சேமிப்பது, ஒரு கோப்பில் உள்ள சொற்களைத் தேடுவது என்றெல்லாம் விளக்கினார்.

கடைசியாக தனது முடிவுகளை முத்து நெடுமாறன் வைத்தார்.

* இப்பொழுதுள்ள தமிழ் யூனிகோடைப் பயன்படுத்த வேண்டும்
* எழுத்து வடிவங்கள் தயாரிப்பவர்கள் தங்களது fontகளை யூனிகோடுக்கு மாற்றித் தரவேண்டும், அதற்கான இலவச மென்பொருட்கள் கிடைக்கின்றன.
* ஒரு சில சிறு மாற்றங்கள் தேவை. அவற்றை உத்தமம் wg02 குழு மூலம் பரிந்துரை செய்து யூனிகோட் கன்சார்ஷியம் இடம் தெரிவிக்க வேண்டும் (இவை பெரிதான அளவில் எந்த மாற்றமும் இல்லை)