Heritrix 3.2.x,如何从warc文件中读取内容?

时间:2016-08-26 07:42:35

标签: heritrix

使用Heritrix 3.2.x,我已经抓取了一个网站,现在我想从创建的warc文件中读取HTML内容。有人可以帮忙吗? 我尝试使用python warc工具和基于java的warc-tools.jar。

2 个答案:

答案 0 :(得分:0)

要了解warc文件的组成,只需使用某种文本编辑器即可。对于图形视图,您需要使用webarchiveplayerpywbopenwayback等工具。

答案 1 :(得分:0)

您是否尝试使用JWAT编程阅读器或使用JWAT Tools command line

jwattools.cmd extract path.to.warc(.gz)