从网站提取财务数据的工具?

时间:2012-05-22 17:10:27

标签: java .net screen-scraping web-crawler

我需要创建一个工具,可以登录网站,阅读HTML,或者导航到另一个页面,最终从页面中提取数据(并将其导出到文件中,或将其保存在“内存中”)更多处理等)。我将在Mac OS上执行此操作。这些天有没有关于如何最好地做到这一点的建议?过去,我使用Web库在.NET或Java中完成了这项工作。我需要能够登录使用HTTPS的网站。

2 个答案:

答案 0 :(得分:1)

看看HTTPUnit。这是一个使用Java代码模拟Web浏览器的简单解决方案,如果您已经熟悉Java并且它已经support HTTPS

,那么您将很快启动并运行

答案 1 :(得分:1)

我使用.NET / Mono和Html Agility Pack进行了一些非常繁重的OSX屏幕抓取。两者都很好地运作IMO。