我正在尝试将“组合阿拉伯字符”(如لا)转换为组成“组合”字符的不同个别字符(例如لا)。我无法在JAVA或C#中执行此操作,因为我需要拆分完整的字符列表。
在C#中,我正在尝试获取Unicode字符,将其转换为Windows-1256,等待获得2个3字节的单个字符和组合字符使用,但我无法做到这一点。
String unicodeWord = (char)sc;
byte[] arabicBytes = System.Text.Encoding.GetEncoding(1256).GetBytes(unicodeWord);
但结果总是如此?
你能帮我解决这个问题吗?我使用java或c#没有问题。
非常感谢!
答案 0 :(得分:1)
string input = "ﻼ";
string normalized = input.Normalize(NormalizationForm.FormKC);
请注意different normalization forms结果不同; FormKC
会产生ل和ا