我想知道是否有一种简单的机制可以从索引过程中排除非英语页面?例如,dmoz种子网址列表包含多种语言的维基百科页面,它们是排除的主要候选者。
任何提示?
答案 0 :(得分:1)
您是否有所有英文页面后面的网址模式?
例如。维基百科在英文网址中有“en
”,如
。对于其他语言,它在网址中没有en
,如
http://gl.wikipedia.org/wiki/Categor%C3%ADa:Wikipedia:Libros
如果您可以定义,那么可以通过在$ NUTCH_CONF_DIR / regex-urlfilter.txt文件中添加正则表达式规则来轻松完成,因此请包含具有英语模式并丢弃其他模式的页面。