已爬网文件存储在Heritrix Web爬网程序中的位置

时间:2010-05-20 03:44:12

标签: parsing filesystems web-crawler

我想知道在Heritrix网络抓取工具中存储已抓取文件的位置......

谢谢并提前

1 个答案:

答案 0 :(得分:0)

来自developer manual

  

默认情况下,heritrix使用ARCWriterProcessor将其抓取的所有内容写入磁盘。此处理器将找到的爬网内容写为Internet Archive ARC文件。 ARC文件格式如下所述:Arc File Format。 Heritrix编写了第1版ARC文件 1

ARC文件位于抓取实例的arcs/文件夹中。您可以在heritrix的web-GUI设置中更改位置。

您可以将其设置为WARCWriterProcessor(WARC文件),MirrorWriterProcessor(根本没有容器)或Kw3WriterProcessor,而不是默认的ARCWriterProcessor。 AFAIK,你甚至可以设置多个作家。请注意,在选择MirrorWriterProcessor时,并非所有文件都可以写入光盘,具体取决于您用来将文件写入的文件系统。

[1] Internet Archive ARC files