Question

我希望将很多字符转换为可读字符。我不知道我的角色是什么样的格式或来自哪里（旧代码）。如何以可读字符转换这些字符？

我在以下列表中找到了一些字符（但不是全部）：

http://www.utf8-zeichentabelle.de/unicode-utf8-table.pl?utf8=char

我的角色代表我未知的角色集：

static String unknowncharacters[] = {"â€“", "Â’", "Â–", "Â–", "Â’", "Âž", "Â–", "Âž", "â€™", "Å¾", "'", "Â´", "Ã©", "Ã©", "ÃŸ", "?", "Âš", "Â–", "Å‚",
            "Ã¸", "Ã¡", "Ã±","È™","Ã«","Ä�","á»“","Ã ","Â½","Ã","Ä±","Ãº","Å�","Ã²","Å¡","Ã³","Ã†","Ä�","á¸¤","Ä«","Å«","Å�","Ã¦"}

如何以编程方式在JAVA中转换我的角色，这样我就可以得到所有未知的角色。

Answer 1

可能你有这么远：保存为Windows-1252又名Windows Latin-1，并重读为UTF-8。然后我还是一团糟。

static String unknowncharacters[] =
{"–", "", "", "", "", "", "", "", "’", "ž", "'", "´", "é", "é", "ß", "?", "", "", "ł",
 "ø", "á", "ñ", "ș", "ë", "Ŀ", "ồ", "à", "½", "í", "ı", "ú", "ſ", "ò", "š", "ó", "Æ", "Ŀ", "Ḥ", "ī", "ū", "ſ", "æ"};

这些可能会从其他文本来源收集“拼错”字符吗？所以多种编码，Windows，Mac，甚至可能是DOS。我相信最初在这里看到€，西班牙语，荷兰语，捷克语，德语，法语和土耳其语。

最好是制作一个编码列表，并尝试每个字符的每个编码。

未知格式的特殊字符。如何在JAVA中转换

1 个答案: