Apache Nutch 2.3.1中的域别名处理

时间:2018-08-01 07:37:51

标签: solr lucene duplicates nutch nutch2

我已经用Hadoop / Hbase生态系统配置了Apache Nutch 2.3.1。对于索引平台,目前正在使用Apache Solr 6.6.2。我们已经与Nutch一起抓取了大约300万份文档,并将它们编入索引以提供搜索。我们面临某些域别名的重复问题,例如“ www.urdupoint.com”和“ www.urdu.com.pk”是两个别名,它们的内容(如某些元数据等)差别很小。存在于两个网站的同一页面在索引中出现两次。如果两个网站是别名,如何在Nutch中处理此类情况以仅获取网站?

0 个答案:

没有答案