如何剥夺“垃圾”字符而不会丢失有效的“怪异”字符?

时间:2013-01-05 11:29:10

标签: java string text utf-8 special-characters

我有一堆输入数据,有时我会得到一些垃圾字符,例如:

  

“婴儿淋浴邀请”

显然在过去的某个时刻它是"Dots Baby Shower Invitations"。但是它出现了乱码。我很乐意在这种情况下删除垃圾â字符。

但我的数据集非常大,只删除所有非英语字符可能有点天真,就像naïve这个词一样。我当然不希望删除ï

那么这个问题是否存在潜在的自动化解决方案?这个问题有人来找我吗?这是“计算机不如人类聪明”的情况吗?

1 个答案:

答案 0 :(得分:1)

您可以使用像WordNet这样的英语词典,只修改那里找不到的词。 例如,naïve包含一个“奇怪”字符,但是在字典中,因此它不会被更改。另一方面,â€还包含一个奇怪的字符,但不会(希望)在字典中,因此它将被修改并且â将被删除。

这可能需要付出太大的努力,但正如你所说,你需要一个快速有效的解决方案,也许值得一试......而且它可能会更好地用于快速黑客攻击!