如何对某些网站进行网页抓取

时间:2014-05-28 17:05:16

标签: web-crawler

我正在开始一个抓取网站的新项目,以使用网络服务在内部检索和存储数据。我查了一些信息,发现了Scrapy和Beevolve网络抓取服务。

我的问题是,最好是在没有经验的情况下创建我自己的抓取工具,还是租用网页抓取服务?

我遇到的一个问题是,某些网站在获取任何数据之前需要登录。

1 个答案:

答案 0 :(得分:1)

如果您想用Java创建自己的网络抓取工具,可能需要查看this

您还可以查看jSpiderjsoup

编辑:这也可行:crawler4j