标签: xml-parsing python-3.x sgml
我有一些使用SGML构建的文档,我有一个描述这种结构的DTD文件。
有人可以向我推荐兼容Python-3的库或模块来解析这些数据吗?对于Python 2.x,我的Google-fu似乎出现了SGMLParser,但这当然已被弃用(并且已从Py3k中彻底删除)。
许多人似乎都建议使用lxml,但由于依赖性问题,这不是我的选择。
lxml
我知道BeautifulSoup非常适合凌乱的标记,但是A)最后我听说它不兼容py3k,而且B)这个内容结构合理。
BeautifulSoup
答案 0 :(得分:2)
不推荐使用BeautifulSoup。请使用替换,这与Py3k兼容: