Nutch:如何排除非英文网页?

时间:2012-04-23 09:04:48

标签: indexing nutch

我想知道是否有一种简单的机制可以从索引过程中排除非英语页面?例如,dmoz种子网址列表包含多种语言的维基百科页面,它们是排除的主要候选者。

任何提示?

1 个答案:

答案 0 :(得分:1)

您是否有所有英文页面后面的网址模式? 例如。维基百科在英文网址中有“en”,如

  

http://en.wikipedia.org/wiki/Category:Wikipedia_books

。对于其他语言,它在网址中没有en,如

  

http://gl.wikipedia.org/wiki/Categor%C3%ADa:Wikipedia:Libros

如果您可以定义,那么可以通过在$ N​​UTCH_CONF_DIR / regex-urlfilter.txt文件中添加正则表达式规则来轻松完成,因此请包含具有英语模式并丢弃其他模式的页面。