使用Heritrix 3.2.x,我已经抓取了一个网站,现在我想从创建的warc文件中读取HTML内容。有人可以帮忙吗? 我尝试使用python warc工具和基于java的warc-tools.jar。
答案 0 :(得分:0)
要了解warc文件的组成,只需使用某种文本编辑器即可。对于图形视图,您需要使用webarchiveplayer或pywb或openwayback等工具。
答案 1 :(得分:0)
您是否尝试使用JWAT编程阅读器或使用JWAT Tools command line。
jwattools.cmd extract path.to.warc(.gz)