在为索引编制索引之前修改已爬网的URL

时间:2013-06-27 10:38:06

标签: apache solr lucene nutch

我正在使用nutch 1.4。我想在索引它之前操纵已爬网的URL。

例如,如果我的网址为http://xyz.com/home/xyz.aspx,那么我想将网址修改为http://xyz.com/index.aspx?role=xyz,并且只有后一个字段应在SOLR中编入索引。原因是我不想暴露第一个URL。第二个URL最终会将其重定向到同一页面。

我们是否在Nutch中有一个规定来操作已爬网的URL,然后再将其索引到SOLR?

1 个答案:

答案 0 :(得分:0)

除非您编写自定义插件,否则没有开箱即用的方法来修改输入到solr的值。
但是,在将结果显示给用户之前,可以在客户端轻松处理。