用于Web分析和自动化的最佳库/框架?

时间:2011-05-31 07:28:58

标签: browser automation libraries

我在这里提出一个相当高级别的问题,以便在出发前希望了解一些的陷阱。我正在计划一个应用程序,它将访问特定的网站来收集,处理和格式化表格数据。然后它必须以某种方式采取某些Web浏览器操作(按照链接,发布表单,单击按钮等)以响应已收集的数据,如果过程中出现问题则提供反馈。一个中心要求是它必须易于适应不同的页面,即网页上的数据和菜单选项大致相同,但格式不同。页面格式如有更改,恕不另行通知,因此错误检测和处理必须良好。

我正在考虑使用C#并简单地在.NET中使用WebBrowser类,因为它至少具有操作DOM和运行JavaScript的良好工具,而无需任何其他配置。但是,我合理地说语言不可知。我担心的主要问题是WebBrowser似乎没有为实际执行操作(鼠标点击等)而严格开发。我想知道这是否会在屁股上咬我。此外,如果从服务器端看到程序与人类用户的区别,那么这是一个加分。

有没有人在这里完成这些任务?我必须强调,我不是在这里测试Web应用程序;这更像是一个机器人。在灵活性和易用性方面,是否有比.NET标准库更适合的库/框架?是否有任何重大缺陷需要注意?

1 个答案:

答案 0 :(得分:1)

我建议你看看机械化与beautifulsoup结合它的perl或python,但它正是你需要的。