应用错误收集

从已爬网站点中提取图形（ARC文件）

时间：2010-06-21 08:21:56

标签： web-crawler archiving information-extraction

我正在处理由Heritrix抓取生成的ARC文件。当我在Wayback Machine中查看这些页面时，看起来大多数图形都是从我的本地机器加载的，所以我假设这些图形存储在ARC文件中。那是对的吗？如果是这样，提取图像的最佳方法是什么？

1 个答案:

答案 0 :(得分：0)

我找到了一个解决方案，一个名为arc_extractor的perl脚本： https://wiki.lib.umn.edu/wupl/DI2.HowToCrawl/arc_extractor.txt

它提取ARC文件中的所有文件，根据收到它们的站点按文件夹分隔。是的，它确实包括图像文件。

剧本不太优雅......所以如果有人有任何其他建议，我会有兴趣了解它们。