我正在使用nutch 1.4。我想在索引它之前操纵已爬网的URL。
例如,如果我的网址为http://xyz.com/home/xyz.aspx,那么我想将网址修改为http://xyz.com/index.aspx?role=xyz,并且只有后一个字段应在SOLR中编入索引。原因是我不想暴露第一个URL。第二个URL最终会将其重定向到同一页面。
我们是否在Nutch中有一个规定来操作已爬网的URL,然后再将其索引到SOLR?
答案 0 :(得分:0)
除非您编写自定义插件,否则没有开箱即用的方法来修改输入到solr的值。
但是,在将结果显示给用户之前,可以在客户端轻松处理。