我想知道在Heritrix网络抓取工具中存储已抓取文件的位置......
谢谢并提前
答案 0 :(得分:0)
默认情况下,heritrix使用ARCWriterProcessor将其抓取的所有内容写入磁盘。此处理器将找到的爬网内容写为Internet Archive ARC文件。 ARC文件格式如下所述:Arc File Format。 Heritrix编写了第1版ARC文件 1 。
ARC文件位于抓取实例的arcs/
文件夹中。您可以在heritrix的web-GUI设置中更改位置。
您可以将其设置为WARCWriterProcessor(WARC文件),MirrorWriterProcessor(根本没有容器)或Kw3WriterProcessor,而不是默认的ARCWriterProcessor。 AFAIK,你甚至可以设置多个作家。请注意,在选择MirrorWriterProcessor时,并非所有文件都可以写入光盘,具体取决于您用来将文件写入的文件系统。