我正在寻找一个好的html解析器,如HtmlAgilityPack(开源.NET项目:http://www.codeplex.com/htmlagilitypack),但是要与Python一起使用。
有谁知道?
答案 0 :(得分:8)
像所有人一样使用Beautiful Soup。
答案 1 :(得分:8)
其他人推荐使用BeautifulSoup,但使用lxml要好得多。尽管它的名字,它也用于解析和抓取HTML。它比BeautifulSoup快得多,甚至比BeautifulSoup(他们声名鹊起)更能处理“破碎”的HTML。如果您不想学习lxml API,它还有BeautifulSoup的兼容性API。
没有理由再使用BeautifulSoup了,除非您使用的是Google App Engine或其他不允许使用Python的东西。
答案 2 :(得分:0)
Beautiful Soup应该是您搜索的内容。它是一个html / xml解析器,可以处理无效页面并允许例如迭代特定的标签。