我是一名.NET程序员。我需要处理网络抓取项目。我想了解HTMLAgilityPack vs BeautifulSoup。
很多人都说,BeautifulSoup比HTMLAgilityPack要好得多。但为此,我需要学习Python。
所以,我的问题是,我学习Python和BeautifulSoup还是继续使用C#和HTMLAgilityPack是否合理?
热烈欢迎任何其他建议。
答案 0 :(得分:5)
CsQuery,我创建的库,是Html Agility Pack的一个相对较新的替代品。它具有以下优点:
缺点:
你可以从nuget获得它:Install-Package CsQuery
。
答案 1 :(得分:1)
在C#.NET世界中,我推荐HTMLAgilityPack,因为它非常灵活。它允许您操作格式错误的HTML,就像它是格式良好的XML一样,因此您可以使用XPath或只是迭代节点。
BeautifulSoup是一种很好的HTML抓取方式,但从开发人员的角度来看,实现全新技术并不是一件容易的事。所以如果你是一个.NET人,我强烈推荐HTMLAgilityPack。
使用HTML Agility Pack,正则表达式和XDocument(LINQ - > XMLy东西)的组合可以获得巨大的成功
这是极端强大的 - LINQ and lambda (part 3) - HTML Agility Pack 是Vijay Santhanam撰写的一篇博文,让我迷上了它。