python - Python检测破碎的编码 - Thinbug

Python检测破碎的编码

时间：2012-08-29 21:33:15

标签： python encoding

在抓取许多网站后，其中一些网站会收到破碎的编码数据。我不能对它们做任何事情，我只需要检测它们。例如文本：

·ç¼wÃdª«|Ê³f

或

ãà³n³¾å¢

我怎样才能识别出那样的文字？我是任何语言，所以搜索非英语文本不是一种选择。我能想到的唯一选择是 guess-language 模块。

2 个答案:

答案 0 :(得分：2)

NLTK有一个guess_encoding函数，它接受一个字节字符串并尝试所有可用的编码，这是否符合您的目的？

答案 1 :(得分：1)

查看https://github.com/LuminosoInsight/python-ftfy

如果我理解正确，它将尝试“修复”错误编码/解码的文本。