Question

我使用Nutch 1.12抓取了一系列网站。我可以使用以下方法将爬网数据转储到单独的HTML文件中：

./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir

使用：

进入单个WARC文件

./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment

但是如何将收集的数据转储到多个WARC文件中，每个网页都抓取一个文件？

Answer 1

经过多次尝试后，我设法找到了

./bin/nutch commoncrawldump -outputDir nameOfOutputDir -segment crawl/segments/segmentDir -warc

正是我所需要的：将段完全转储到单个WARC文件中！

Answer 2

每个文档有一个WARC听起来有点浪费但是你去了：您可以为'warc.output.segment.size'指定一个较低的值，以便每次写入新文档时都会轮换文件。 WarcExporter在引擎盖下使用[https://github.com/ept/warc-hadoop]，配置在那里使用。