C#库类似于HtmlUnit

时间:2009-10-03 02:38:47

标签: c# web-crawler screen-scraping

我需要编写独立的应用程序,它将“浏览”外部资源。 C#中有lib自动处理cookie并支持JavaScript(我认为不需要通过JS)吗?主要目标是使会话保持活动状态并提交表单,以便我可以在登录后通过多步骤注册过程或“浏览”网站。 我查看了Html Agility Pack,但看起来它不包含我需要的功能 - 表单提交或cookie支持。

谢谢,Artem。

5 个答案:

答案 0 :(得分:3)

如果您有兴趣为C#编写自己的htmlunit版本,那么IKVM项目可能会有所帮助。 http://www.ikvm.net/

答案 1 :(得分:1)

HtmlAgilityPack专门用于解析HTML。您可以使用.NET Framework中的WebRequest类来处理通信和cookie。

请参阅Web scraping in .NET上的博客文章。这不会回答你的所有问题,但会让你在那里的一部分。

答案 2 :(得分:1)

查看Data Extracting SDK,它允许通过HtmlProcessor类发布数据。如果在图书馆中遗漏了,你也可以add your work item在这里。

答案 3 :(得分:0)

答案 4 :(得分:0)

Selenium,它使用实际的浏览器,但是是一个跨浏览器平台。取决于是否有一个实际的浏览器运行 - 它的工作原理是通过代理将javascript注入浏览器。 http://seleniumhq.org/support/