我正在使用Heritrix 3.1 Java库。为了清楚起见,我对爬行不感兴趣,只是处理来自另一个团队生成的压缩WARC(* .warc.gz)文件的数据。对于存储在WARC文件中的每个WWW文档,我需要来自记录头的一些信息,一些来自HTTP头,以及HTTP有效负载/主体的完整内容,所以我认为我需要使用HeaderedArchiveRecord类。
WARCReader warcReader = WARCReaderFactory.get(warcFile);
int inputSequence = -1;
ArchiveRecord record = warcReader.get();
while(record != null){
inputSequence++;
// Skip the 0th record, which is just the archive guff.
if (inputSequence == 0) {
// print some info but do not process this record
}
else if (! record.hasContentHeaders()) {
// print some info but do not process this record
}
else {
HeaderedArchiveRecord hRecord = new HeaderedArchiveRecord(record);
ArchiveRecordHeader archiveHeader = hRecord.getHeader();
gate.Document document = makeDocumentHeritrix(archiveHeader,
inputSequence, hRecord);
//...
}
record.close();
record = warcReader.get(); // line 754
}
warcReader.close();
当我运行此操作时,我会因此原因而出现异常
Caused by: java.io.IOException: Failed to read WARC_MAGIC
at org.archive.io.warc.WARCRecord.parseHeaders(WARCRecord.java:116)
at org.archive.io.warc.WARCRecord.<init>(WARCRecord.java:90)
at org.archive.io.warc.WARCReader.createArchiveRecord(WARCReader.java:94)
at org.archive.io.warc.WARCReader.createArchiveRecord(WARCReader.java:44)
at org.archive.io.ArchiveReader.get(ArchiveReader.java:159)
at
gate.arcomem.batch.Enrichment.makeCorpusWithHeritrix(Enrichment.java:754)
我的第754行如上所示。我的makeDocumentHeritrix(...)
方法中的代码用于抛出类似的异常但使用Failed to find WARC_MAGIC
,直到我将行hrecord.skipHttpHeader();
移到Header[] httpHeader = record.getContentHeaders();
之前。
我试图在网上搜索代码来循环查看WARC文件中的记录,但是没有找到任何代码,我记得当我几年前使用heritrix 1.14做类似的事情时,我不得不这样做一些奇怪的事情来操纵文件中的偏移量,但WARCReader中的相关方法现在都是私有的或受保护的,所以我不希望必须使用较新的库。
答案 0 :(得分:1)
我使用以下代码取得了成功:
Iterator<ArchiveRecord> archIt = WARCReaderFactory.get(new File(args[0])).iterator();
while (archIt.hasNext()) {
handleRecord(archIt.next());
}