在单个字符中拆分组合的阿拉伯字符

时间:2014-07-02 11:36:00

标签: java c# arabic

我正在尝试将“组合阿拉伯字符”(如لا)转换为组成“组合”字符的不同个别字符(例如لا)。我无法在JAVA或C#中执行此操作,因为我需要拆分完整的字符列表。

在C#中,我正在尝试获取Unicode字符,将其转换为Windows-1256,等待获得2个3字节的单个字符和组合字符使用,但我无法做到这一点。

String unicodeWord = (char)sc;
byte[] arabicBytes = System.Text.Encoding.GetEncoding(1256).GetBytes(unicodeWord);

但结果总是如此?

你能帮我解决这个问题吗?我使用java或c#没有问题。

非常感谢!

1 个答案:

答案 0 :(得分:1)

string input = "ﻼ";
string normalized = input.Normalize(NormalizationForm.FormKC);

请注意different normalization forms结果不同; FormKC会产生ل和ا