应用错误收集

我试图用BeautifulSoup用普通话搜索网站。不幸的是，当我这样做时，BeautifulSoup会找到html，head和body标签，但是开始和关闭的body标签之间的所有东西都是乱码。我尝试过使用多个解析器，据我所知，只有html5lib能够找到所有页面，因为它返回的是最长的结果。所以我认为我使用了正确的解析器，但编码错误。该网站列出了＆＃39; gb2312＆＃39;作为它的编码，但使用该编码，它仍然是胡言乱语。我也尝试过chardet来确定编码，它返回了＆＃39; windows-1252＆＃39;，但它看起来也不正确。事实上，我已经经历了许多标准的汉字编码（找到here），但是没有一个能够返回任何连贯的内容，尽管有些中文字符有一两个汉字。我还为每个可能的python编码创建了一个输出文件，但看起来没有一个是正确的。

除了通过不同的编码，我不知道还有什么可以尝试。非常感谢任何帮助，谢谢！

BeautifulSoup for Mandarin

1 个答案: