在抓取许多网站后,其中一些网站会收到破碎的编码数据。我不能对它们做任何事情,我只需要检测它们。例如文本:
·ç¼wÃdª«|ʳf
或
ãà³n³¾å¢
我怎样才能识别出那样的文字?我是任何语言,所以搜索非英语文本不是一种选择。我能想到的唯一选择是 guess-language 模块。
答案 0 :(得分:2)
NLTK有一个guess_encoding
函数,它接受一个字节字符串并尝试所有可用的编码,这是否符合您的目的?
答案 1 :(得分:1)
查看https://github.com/LuminosoInsight/python-ftfy
如果我理解正确,它将尝试“修复”错误编码/解码的文本。