从已爬网站点中提取图形(ARC文件)

时间:2010-06-21 08:21:56

标签: web-crawler archiving information-extraction

我正在处理由Heritrix抓取生成的ARC文件。当我在Wayback Machine中查看这些页面时,看起来大多数图形都是从我的本地机器加载的,所以我假设这些图形存储在ARC文件中。那是对的吗?如果是这样,提取图像的最佳方法是什么?

1 个答案:

答案 0 :(得分:0)

我找到了一个解决方案,一个名为arc_extractor的perl脚本: https://wiki.lib.umn.edu/wupl/DI2.HowToCrawl/arc_extractor.txt

它提取ARC文件中的所有文件,根据收到它们的站点按文件夹分隔。是的,它确实包括图像文件。

剧本不太优雅......所以如果有人有任何其他建议,我会有兴趣了解它们。