标签: solr search-engine nutch
我使用Apache Nutch和Solr来构建我的搜索引擎。 我在结果中发现有多个url指向同一页面,这些url在solr中索引为不同的结果
EX:
http://www.adab.com/modules.php?name=Sh3er&doWhat=shqas&qid=83067&r=&rc=13 http://www.adab.com/modules.php?name=Sh3er&doWhat=shqas&qid=83067&r=&rc=15
如何在搜索引擎中避免这种重复?
答案 0 :(得分:0)
您可以设置deduplication,以便丢弃重复项。