如何配置抓取工具nutch,以便只抓取英文网页?
我在nutch-site.xml文件中设置了此设置,但它不起作用:
<property>
<name>http.accept.language</name>
<value>en-us,en-gb,en;q=0.7,*;q=0.3</value>
<description>Value of the "Accept-Language" request header field.
This allows selecting non-English language as default one to retrieve.
It is a useful setting for search engines build for certain national group.
</description>
</property>
答案 0 :(得分:0)
您设置的值:<value>en-us,en-gb,en;q=0.7,*;q=0.3</value>
表示它更喜欢英语,但其他语言(*)仍然存在。要仅抓取英文网页,您应将值设置如下:
<value>en-us,en-gb,en</value>
要确保,还要更改nutch-default.xml中的值。
希望这有帮助
-Le Quoc Do