将数据从Nutch爬网转储到多个warc文件中

时间:2016-10-24 14:41:25

标签: web-crawler nutch warc

我使用Nutch 1.12抓取了一系列网站。我可以使用以下方法将爬网数据转储到单独的HTML文件中:

./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir

使用:

进入单个WARC文件
./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment

但是如何将收集的数据转储到多个WARC文件中,每个网页都抓取一个文件?

2 个答案:

答案 0 :(得分:1)

经过多次尝试后,我设法找到了

./bin/nutch commoncrawldump -outputDir nameOfOutputDir -segment crawl/segments/segmentDir -warc

正是我所需要的:将段完全转储到单个WARC文件中!

答案 1 :(得分:0)

每个文档有一个WARC听起来有点浪费但是你去了: 您可以为'warc.output.segment.size'指定一个较低的值,以便每次写入新文档时都会轮换文件。 WarcExporter在引擎盖下使用[https://github.com/ept/warc-hadoop],配置在那里使用。