python - 如何将原始html从Web转换为Python中的可解析xml - Thinbug

如何将原始html从Web转换为Python中的可解析xml

时间：2010-09-01 10:08:49

标签： python html xml python-3.x

我认为BeautifulSoup可以做到这一点，但它似乎没有做到这一点。

您已经使用了哪种方法，长期可靠？

2 个答案:

答案 0 :(得分：4)

您可以使用lxml库，特别是lxml.html，它为您提供了一个ETree对象，然后您可以使用（{等等）。tostring() method将其序列化为XML。

如果你的HTML失败（它太破了）你可以使用ElementSoup（BeautifulSoup的扩展）来构建一个lxml.html树。

答案 1 :(得分：2)

你可以尝试http://utidylib.berlios.de/，一个用于整洁库的python包装器。在大多数情况下，Tidy效果很好。

对于更健壮的东西（或至少更像浏览器），我想你可以试试webkit或gecko。我不确定负责清理HTML的包装器是否可用，但你可以看看。