Question

我正在尝试收集印地语字符集中所有“o”形状的Unicode列表。实际上，任何使用单独字符来表示重音的字符（使用任何语言）都会更好。

我打算在RegExp中使用这个unicode列表。

我一直在尝试通过在输入TextField中输出它们来编辑字符范围列表，但是编辑此文本会导致奇怪的问题（键盘光标不会放在正确的字符上，选择会突然消失/错误地变形。 ..换句话说...... HINDI HELL！）

我也尝试过使用Notepad ++，但是虽然响应速度更快，但它最终会像在Flash Player文本字段中那样对我产生影响。这似乎特别是在删除[]块（nulls？）字符时发生。其中一些引发奇怪的行为。

无论如何，我想要的只是重音列表。下面的图片中有一些例子（但我需要所有重音）：

enter image description here

谢谢！

Answer 1

您可以在此处找到包含按语言分组的unicode范围列表的pdf：http://unicode.org/charts/

对于印地语，您可能需要Devanagari或Devanagari Extended。

Answer 2

这是梵文组合标记的字符类：

[\u901\u902\u903\u93c\u93e\u93f\u940\u941\u942\u943
 \u944\u945\u946\u947\u948\u949\u94a\u94b\u94c\u94d
 \u951\u952\u953\u954\u962\u963]

这只是基本的梵文块（不是Devanagari Extended）。

Answer 3

如果您需要完整集（适用于所有语言），则可以解决问题。您从ftp://ftp.unicode.org/Public/6.1.0/ucd/UnicodeData.txt的Unicode日期文件开始，由TR-44（http://unicode.org/reports/tr44/#Property_Definitions）

描述

您可以使用Canonical_Combining_Class字段（请参阅http://unicode.org/reports/tr44/#Canonical_Combining_Class_Values）过滤所需的确切字符。不能更精确，因为＆＃34;重音＆＃34;有点模糊:-) 您甚至可能还需要查看General_Category以获得正确的过滤器（并排除某些标记，符号或标点符号）。

执行此操作的脚本肯定比尝试弄乱文本编辑器更好。结合字符的特征之一是它们结合:-) 所以你可能会得到各种令人费解的结果（例如：http://www.siao2.com/2006/02/17/533929.aspx： - ）

印地语重音字符的unicode范围是什么？

3 个答案: