标签: web-crawler
我正在开始一个抓取网站的新项目,以使用网络服务在内部检索和存储数据。我查了一些信息,发现了Scrapy和Beevolve网络抓取服务。
我的问题是,最好是在没有经验的情况下创建我自己的抓取工具,还是租用网页抓取服务?
我遇到的一个问题是,某些网站在获取任何数据之前需要登录。
答案 0 :(得分:1)
如果您想用Java创建自己的网络抓取工具,可能需要查看this
您还可以查看jSpider和jsoup。
编辑:这也可行:crawler4j