Python2和Python3之间的BeautifulSoup HTMLparsingError

时间:2018-03-05 18:38:27

标签: python html beautifulsoup python-2to3

我在Python27上运行一个bs4程序,它运行正常,一旦我使用Python3,我就遇到了问题。我正在使用bs4的更新版本。我运行它的文件是html,我注意到错误在标签上。我需要更新支持模块吗?喜欢lxml?

代码:

...
File "C:\Anaconda3\lib\html\parser.py", line 174, in error 
      raise HTMLParseError(message, self.getpos())
html.parser.HTMLParseError: unknown status keyword 'NKXE' in marked section, 
      at line 318, column 49

这是错误:

2018-03-05T18:09:46.391279+00:00 app[web.1]: - npm ERR!     /app/.npm/_logs/2018-03-05T18_09_46_383Z-debug.log

永远感谢你的帮助!

1 个答案:

答案 0 :(得分:1)

查看是否安装html5lib

pip install html5lib

然后发出这样的请求可以解决问题。

from bs4 import BeautifulSoup

data = open(directory +'\\'+ file)
soup = BeautifulSoup(data, 'html5lib')

这对我有用。