有没有像HtmlAgilityPack(.NET)这样的好的HTML解析器?

时间:2009-08-03 12:58:05

标签: python html parsing

我正在寻找一个好的html解析器,如HtmlAgilityPack(开源.NET项目:http://www.codeplex.com/htmlagilitypack),但是要与Python一起使用。

有谁知道?

3 个答案:

答案 0 :(得分:8)

像所有人一样使用Beautiful Soup

答案 1 :(得分:8)

其他人推荐使用BeautifulSoup,但使用lxml要好得多。尽管它的名字,它也用于解析和抓取HTML。它比BeautifulSoup快得多,甚至比BeautifulSoup(他们声名鹊起)更能处理“破碎”的HTML。如果您不想学习lxml API,它还有BeautifulSoup的兼容性API。

Ian Blicking agrees

没有理由再使用BeautifulSoup了,除非您使用的是Google App Engine或其他不允许使用Python的东西。

答案 2 :(得分:0)

Beautiful Soup应该是您搜索的内容。它是一个html / xml解析器,可以处理无效页面并允许例如迭代特定的标签。