我希望将很多字符转换为可读字符。我不知道我的角色是什么样的格式或来自哪里(旧代码)。如何以可读字符转换这些字符?
我在以下列表中找到了一些字符(但不是全部):
http://www.utf8-zeichentabelle.de/unicode-utf8-table.pl?utf8=char
我的角色代表我未知的角色集:
static String unknowncharacters[] = {"–", "’", "–", "–", "’", "ž", "–", "ž", "’", "ž", "'", "´", "é", "é", "ß", "?", "š", "–", "ł",
"ø", "á", "ñ","È™","ë","Ä�","ồ","à ","½","Ã","ı","ú","Å�","ò","Å¡","ó","Æ","Ä�","Ḥ","Ä«","Å«","Å�","æ"}
如何以编程方式在JAVA中转换我的角色,这样我就可以得到所有未知的角色。
答案 0 :(得分:0)
可能你有这么远:保存为Windows-1252又名Windows Latin-1,并重读为UTF-8。然后我还是一团糟。
static String unknowncharacters[] =
{"–", "", "", "", "", "", "", "", "’", "ž", "'", "´", "é", "é", "ß", "?", "", "", "ł",
"ø", "á", "ñ", "ș", "ë", "Ŀ", "ồ", "à", "½", "í", "ı", "ú", "ſ", "ò", "š", "ó", "Æ", "Ŀ", "Ḥ", "ī", "ū", "ſ", "æ"};
这些可能会从其他文本来源收集“拼错”字符吗?所以多种编码,Windows,Mac,甚至可能是DOS。我相信最初在这里看到€
,西班牙语,荷兰语,捷克语,德语,法语和土耳其语。
最好是制作一个编码列表,并尝试每个字符的每个编码。