我有一堆输入数据,有时我会得到一些垃圾字符,例如:
“婴儿淋浴邀请”
显然在过去的某个时刻它是"Dots Baby Shower Invitations"
。但是它出现了乱码。我很乐意在这种情况下删除垃圾â
字符。
但我的数据集非常大,只删除所有非英语字符可能有点天真,就像naïve这个词一样。我当然不希望删除ï
。
那么这个问题是否存在潜在的自动化解决方案?这个问题有人来找我吗?这是“计算机不如人类聪明”的情况吗?
答案 0 :(得分:1)
您可以使用像WordNet这样的英语词典,只修改那里找不到的词。 例如,naïve包含一个“奇怪”字符,但是在字典中,因此它不会被更改。另一方面,â€还包含一个奇怪的字符,但不会(希望)在字典中,因此它将被修改并且â将被删除。
这可能需要付出太大的努力,但正如你所说,你需要一个快速有效的解决方案,也许值得一试......而且它可能会更好地用于快速黑客攻击!