Question

使用Heritrix 3.2.x，我已经抓取了一个网站，现在我想从创建的warc文件中读取HTML内容。有人可以帮忙吗？我尝试使用python warc工具和基于java的warc-tools.jar。

Answer 1

要了解warc文件的组成，只需使用某种文本编辑器即可。对于图形视图，您需要使用webarchiveplayer或pywb或openwayback等工具。

Answer 2

您是否尝试使用JWAT编程阅读器或使用JWAT Tools command line。

jwattools.cmd extract path.to.warc(.gz)