我已经实现了一个深度为3的Nutch抓取工具。现在,当我将数据提取到cassandra中时,我有一个包含该URL和来自该特定URL的数据的表。那么有什么方法可以追溯到本地URL的路径,在该URL中,在seed.txt中已经更新了这个深度抓取的URL并进行了抓取。
答案 0 :(得分:0)
所以基本上你想知道特定URL来自哪个种子URL(在你的seed.txt
文件中)?如果是这种情况,那么基本上很简单,seed.txt
文件支持添加custom metadata key/vale pair after the URL。基本上只使用以下格式:
URL <tab> key=value
例如:
http://my-news-site.com source=news
之后,您需要使用并配置urlmeta
插件,将该元数据传播到种子URL的所有外链接中。这会导致最终在索引中为原始种子网址及其所有外链链接添加source
字段。