我试图用BeautifulSoup用普通话搜索网站。不幸的是,当我这样做时,BeautifulSoup会找到html,head和body标签,但是开始和关闭的body标签之间的所有东西都是乱码。我尝试过使用多个解析器,据我所知,只有html5lib能够找到所有页面,因为它返回的是最长的结果。所以我认为我使用了正确的解析器,但编码错误。该网站列出了' gb2312'作为它的编码,但使用该编码,它仍然是胡言乱语。我也尝试过chardet来确定编码,它返回了' windows-1252',但它看起来也不正确。事实上,我已经经历了许多标准的汉字编码(找到here),但是没有一个能够返回任何连贯的内容,尽管有些中文字符有一两个汉字。我还为每个可能的python编码创建了一个输出文件,但看起来没有一个是正确的。
除了通过不同的编码,我不知道还有什么可以尝试。非常感谢任何帮助,谢谢!
答案 0 :(得分:1)