应用错误收集

想知道如何用泰卢固语脚本获取音节

时间：2009-10-31 06:33:38

标签： python

我正在使用的telugu脚本的unicode范围是0C01-0C7F 你可以解释如何找出那个

中的音节

（从that问题更新复制）

我可以对字符进行分类但是在泰卢固语脚本中，一个音节可能包含一个或多个字符，当从文件中检索字符时，音节被分开而无法将它们组合在一起，所以如果有人知道，请帮助我关于泰卢固语脚本文本分类

2 个答案:

答案 0 :(得分：2)

我不会说泰卢固语（对不起！），但我知道这是一种基于音节的语言，其中音节由元音（“achchu”）和辅音（“hallu”）组成。因此，正如wikipedia所解释的那样，你最终会得到“六十个符号，其中16个是元音，三个元音修饰符和四十一个辅音”。 This page显示Unicode对应关系：元音是0C05到0C14（还有0C60和0C61，“vocalic”RR和LL）;辅音是0C15到0C39;其他代码是许多“标志，标点，数字”等。

可能音节的完整表格在this PDF，但我承认剧本会让我失望，因为我无法告诉你什么是什么。如果你说泰卢固语，或者很容易接触到那些人，那么你就可以在一个更好的地方讲述如何用一串泰卢固语字符来雕刻音节。 Python与它没有多大关系 - 它只是一种编程语言中的一种，可以让你实现音节测定所需的算法，但它绝对没有这样的算法构建 - 在！ - ）

答案 1 :(得分：2)

在泰卢固语中，音节以多种方式形成

V（在独立形式的单词的开头）
C + V（辅助形式的辅音+元音）
C + C + V（辅音+辅音+元音）
C + C + C + V辅音+辅音+元音）

如果您使用英文脚本音译为泰卢固语（如谷歌音译工具），则许多英文字符可能仅形成一个音节。

考虑“stree”（在谷歌音译工具中输入此内容），这只是在泰卢固语中形成一个音节。您可以在http://rishida.net/tools/analysestring/index.php?list =స్త్分析该泰卢固语字符串，以了解如何形成泰卢固语音节。

你有两个选择，两个解决这个问题

[1]如果您的输入是在Telugu脚本中，请找出代码点序列。并根据元音结束和新音节开始的时间对代码点序列进行分组。

[2]如果你的输入是用英语映射到泰卢固语字符，那么你需要弄清楚何时将序列分成多个音节。