跟踪在nutch中从中爬行外部链接的基本URL的路径

时间:2016-11-16 09:07:42

标签: cassandra nutch

我已经实现了一个深度为3的Nutch抓取工具。现在,当我将数据提取到cassandra中时,我有一个包含该URL和来自该特定URL的数据的表。那么有什么方法可以追溯到本地URL的路径,在该URL中,在seed.txt中已经更新了这个深度抓取的URL并进行了抓取。

1 个答案:

答案 0 :(得分:0)

所以基本上你想知道特定URL来自哪个种子URL(在你的seed.txt文件中)?如果是这种情况,那么基本上很简单,seed.txt文件支持添加custom metadata key/vale pair after the URL。基本上只使用以下格式:

URL <tab> key=value

例如:

http://my-news-site.com    source=news

之后,您需要使用并配置urlmeta插件,将该元数据传播到种子URL的所有外链接中。这会导致最终在索引中为原始种子网址及其所有外链链接添加source字段。