在Nutch wiki中,它建议使用以下内容:
bin/nutch solrindex <solr url> <crawldb> [-linkdb <linkdb>] [-params k1=v1&k2=v2...] (<segment> ... | -dir <segments>) [-noCommit] [-deleteGone] [-filter] [-normalize]
的目的是什么?
[-filter] [-normalize]
当Nutch有多个过滤器和规范化配置文件?
automaton-urlfilter.txt
domain-urlfilter.txt
regex-urlfilter.txt
suffix-urlfilter.txt
regex-normalize.xml
host-urlnormalizer.txt
答案 0 :(得分:0)
索引到Solr时,默认情况下这些配置文件设置为false,因此如果您希望将传递给Solr的索引标准化或归档,那么您将启用这些选项。
对我而言,这似乎是一个毫无意义的选择,但仅仅因为我不希望我的Solr配置如何工作,但它是一个更高级的功能,将使少数人受益