如何从heritrix抓取中排除除链接/外链之外的所有内容?

时间:2013-07-25 12:24:58

标签: web-crawler heritrix

我正在与Heritrix合作,我对管理输出感到困惑。

我正在学习PageRank,我需要Heritrix来生成一个文件,以便应用排名算法。我需要的文件只有每个访问过的页面的链接和链接。

我想避免(尽我所能)后期处理。是否可以通过指定包含哪些内容以及哪些不包含来自定义Heritrix的输出?我有alredy试图修改cxml文件,但输出中仍然有很多无用的信息(如内容页面)。

1 个答案:

答案 0 :(得分:0)

如果不编写代码,就无法直接执行您所描述的内容。如果您正在编写代码,可以编写一个非常简单的处理器或ScriptedProcessor,以您喜欢的任何格式转储CrawlURI.getOutLinks()。

但我建议进行后期处理。我不确定你为什么要避免它。你可以使用" warcfilter"来自https://github.com/internetarchive/warctools的工具。运行" warcfilter - 类型元数据"过滤掉仅包含外链列表的元数据记录。你可以用grep进一步削减它。

Inlinks是一个更大的问题。您必须搜索所有warc的外链接以获取任何给定网址的链接。