应用错误收集

有没有像HtmlAgilityPack（.NET）这样的好的HTML解析器？

时间：2009-08-03 12:58:05

标签： python html parsing

我正在寻找一个好的html解析器，如HtmlAgilityPack（开源.NET项目：http://www.codeplex.com/htmlagilitypack），但是要与Python一起使用。

有谁知道？

3 个答案:

答案 0 :(得分：8)

像所有人一样使用Beautiful Soup。

答案 1 :(得分：8)

其他人推荐使用BeautifulSoup，但使用lxml要好得多。尽管它的名字，它也用于解析和抓取HTML。它比BeautifulSoup快得多，甚至比BeautifulSoup（他们声名鹊起）更能处理“破碎”的HTML。如果您不想学习lxml API，它还有BeautifulSoup的兼容性API。

Ian Blicking agrees

没有理由再使用BeautifulSoup了，除非您使用的是Google App Engine或其他不允许使用Python的东西。

答案 2 :(得分：0)

Beautiful Soup应该是您搜索的内容。它是一个html / xml解析器，可以处理无效页面并允许例如迭代特定的标签。