[Ilugc] what is the length of an indic string? was Foss Conf Logo-2

  • From: lawgon@xxxxxxxxxxxxxxx (Kenneth Gonsalves)
  • Date: Sun Nov 18 08:58:43 2007


On 18-Nov-07, at 8:21 AM, ????????? ?? wrote:

Keyboard layout is different from Character encoding. Tamil keyboard
layout will remain the same. But internally each of the 247 tamil
letters will have separate slots so that sorting, character count etc
need not be a hack (as being the requirement now).

sorting in Tamil is b0rked because the wrong order has been given for  
some letters in the unicode scheme. Character count is correct,  
because the current unicode scheme allots more than one character for  
all the consonant-vowel combinations.


In tamil there are only 12 vowels and 18 consonants. The corresponding
numbers for Hindi is 14 and 68 (correct the no.s). Total combination
characters for Hindi would be somewhere around 1000 compared to 247
for Tamil.

in kannada, telugu, not only do they combine vowel+consonant, but  
also consonant+consonant. So according to the proposed scheme the  
kannada word kshathriya would be only 2 characters long - ksha and  
thriya.

Since all Indian languages face the same problem (I dont know about  
urdu and kashmiri), there is a need for a common solution.

-- 

regards
kg
http://lawgon.livejournal.com
http://nrcfosshelpline.in/web/


Other related posts: