我使用Nutch 1.12抓取了一系列网站。我可以使用以下方法将爬网数据转储到单独的HTML文件中:
./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir
使用:
进入单个WARC文件./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment
但是如何将收集的数据转储到多个WARC文件中,每个网页都抓取一个文件?
答案 0 :(得分:1)
经过多次尝试后,我设法找到了
./bin/nutch commoncrawldump -outputDir nameOfOutputDir -segment crawl/segments/segmentDir -warc
正是我所需要的:将段完全转储到单个WARC文件中!
答案 1 :(得分:0)
每个文档有一个WARC听起来有点浪费但是你去了: 您可以为'warc.output.segment.size'指定一个较低的值,以便每次写入新文档时都会轮换文件。 WarcExporter在引擎盖下使用[https://github.com/ept/warc-hadoop],配置在那里使用。