如何限制Apache Nutch仅抓取特定于语言的文档

时间:2015-01-29 07:57:33

标签: apache web-crawler filtering nutch

我正在使用apache Nutch 2.3,我想只抓取来自网络的某些特定语言的文件,假设阿拉伯语或至少文档应该用阿拉伯语包含一些字符串。

`So is there any option in crawler to do this job?`

1 个答案:

答案 0 :(得分:1)

是的,你可以用Nutch做到这一点。在你的nutch xpathfilterconf中,你可以指定一个语言字段名称,并为你正在抓取的网站提供适当的xpath表达式。

然后,在XPathIndexingFilter中,您可以在语言字段上进行过滤。

或者,如果您抓取的网站在javascript中的任何位置都没有其语言,您可以为网站bodytext / main文本添加字段名称,然后在索引过滤器中添加一些检查以查看是否它包含阿拉伯文字。