我正在处理由Heritrix抓取生成的ARC文件。当我在Wayback Machine中查看这些页面时,看起来大多数图形都是从我的本地机器加载的,所以我假设这些图形存储在ARC文件中。那是对的吗?如果是这样,提取图像的最佳方法是什么?
答案 0 :(得分:0)
我找到了一个解决方案,一个名为arc_extractor的perl脚本: https://wiki.lib.umn.edu/wupl/DI2.HowToCrawl/arc_extractor.txt
它提取ARC文件中的所有文件,根据收到它们的站点按文件夹分隔。是的,它确实包括图像文件。
剧本不太优雅......所以如果有人有任何其他建议,我会有兴趣了解它们。