crawler4j异步将结果保存到文件

时间:2016-02-14 14:47:30

标签: java asynchronous web-scraping crawler4j

我正在评估crawler4j每天~100次抓取 我的情况是这样的:我正在获取URL并解析其描述,关键字和标题,现在我想将每个URL及其单词保存到单个文件中

我已经看到了save crawled data to files的可能性。但是,由于我要执行许多爬网,我希望不同的线程在文件系统上执行保存文件操作(为了不阻止fetcher线程)。这可能与crawler4j有关吗?如果是这样,怎么样?

由于

1 个答案:

答案 0 :(得分:1)

考虑使用QueueBlockingQueue或类似的)来放置要写入的数据,然后由一个/多个工作线程处理(这种方法不是特定于crawler4j的)。搜索"生产者消费者"得到一些一般性的想法。

关于如何将&recChars传递给抓取工具实例的后续问题,这应该可以解决问题(这只是查看source代码,没有使用过我自己的crawler4j):

Queue