抓取/模拟浏览帮助

时间:2009-09-14 01:42:34

标签: c# webbrowser-control screen-scraping

我想创建一个程序来模拟用户浏览网站并点击链接。必须启用Cookie和JavaScript。我已经成功地在python中完成了这个,但是我想用可编译的语言编写它(python ide不要删除它)。网站上的链接是使用javascript生成的,并且是动态的。使用python我使用PAMIE(使用win32com的第三方模块)来启动Internet Explorer的实例,为链接抓取生成的html,然后导航到其中一个。关键是整个过程对服务器是透明的。什么是最好(可编译)的语言和方法来做到这一点?我正在考虑使用WebBrowser控件进行C#,但如果不能正常工作,我不想花很多时间学习一些东西。任何帮助表示赞赏!

3 个答案:

答案 0 :(得分:2)

我在这篇文章中写了一篇博文:Web scraping in .NET。这讨论了cookie而不是JavaScript;我不知道是否需要额外的编码。

答案 1 :(得分:2)

答案 2 :(得分:0)

值得一看selenium

我们在C#asp.net环境中使用它进行Web测试。

documentation并不坏