应用错误收集

如何对某些网站进行网页抓取

时间：2014-05-28 17:05:16

标签： web-crawler

我正在开始一个抓取网站的新项目，以使用网络服务在内部检索和存储数据。我查了一些信息，发现了Scrapy和Beevolve网络抓取服务。

我的问题是，最好是在没有经验的情况下创建我自己的抓取工具，还是租用网页抓取服务？

我遇到的一个问题是，某些网站在获取任何数据之前需要登录。

1 个答案:

答案 0 :(得分：1)

如果您想用Java创建自己的网络抓取工具，可能需要查看this

您还可以查看jSpider和jsoup。

编辑：这也可行：crawler4j