未知格式的特殊字符。如何在JAVA中转换

时间:2014-02-04 15:55:33

标签: java character-encoding

我希望将很多字符转换为可读字符。我不知道我的角色是什么样的格式或来自哪里(旧代码)。如何以可读字符转换这些字符?

我在以下列表中找到了一些字符(但不是全部):

http://www.utf8-zeichentabelle.de/unicode-utf8-table.pl?utf8=char

我的角色代表我未知的角色集:

static String unknowncharacters[] = {"–", "’", "–", "–", "’", "ž", "–", "ž", "’", "ž", "'", "´", "é", "é", "ß", "?", "š", "–", "ł",
            "ø", "á", "ñ","ș","ë","�","ồ","à","½","í","ı","ú","�","ò","š","ó","Æ","�","Ḥ","ī","ū","�","æ"}

如何以编程方式在JAVA中转换我的角色,这样我就可以得到所有未知的角色。

1 个答案:

答案 0 :(得分:0)

可能你有这么远:保存为Windows-1252又名Windows Latin-1,并重读为UTF-8。然后我还是一团糟。

static String unknowncharacters[] =
{"–", "", "", "", "", "", "", "", "’", "ž", "'", "´", "é", "é", "ß", "?", "", "", "ł",
 "ø", "á", "ñ", "ș", "ë", "Ŀ", "ồ", "à", "½", "í", "ı", "ú", "ſ", "ò", "š", "ó", "Æ", "Ŀ", "Ḥ", "ī", "ū", "ſ", "æ"};

这些可能会从其他文本来源收集“拼错”字符吗?所以多种编码,Windows,Mac,甚至可能是DOS。我相信最初在这里看到,西班牙语,荷兰语,捷克语,德语,法语和土耳其语。

最好是制作一个编码列表,并尝试每个字符的每个编码。