Nutch履带式:只接受英文页面

时间:2014-10-17 09:32:18

标签: java nutch

如何配置抓取工具nutch,以便只抓取英文网页?

我在nutch-site.xml文件中设置了此设置,但它不起作用:

<property>
<name>http.accept.language</name>
<value>en-us,en-gb,en;q=0.7,*;q=0.3</value>
<description>Value of the "Accept-Language" request header field.
This allows selecting non-English language as default one to retrieve.
It is a useful setting for search engines build for certain national group.
</description>
</property>

1 个答案:

答案 0 :(得分:0)

您设置的值:<value>en-us,en-gb,en;q=0.7,*;q=0.3</value>表示它更喜欢英语,但其他语言(*)仍然存在。要仅抓取英文网页,您应将值设置如下:

<value>en-us,en-gb,en</value>

要确保,还要更改nutch-default.xml中的值。

希望这有帮助

-Le Quoc Do