我正在使用apache Nutch 2.3,我想只抓取来自网络的某些特定语言的文件,假设阿拉伯语或至少文档应该用阿拉伯语包含一些字符串。
`So is there any option in crawler to do this job?`
答案 0 :(得分:1)
是的,你可以用Nutch做到这一点。在你的nutch xpathfilterconf中,你可以指定一个语言字段名称,并为你正在抓取的网站提供适当的xpath表达式。
然后,在XPathIndexingFilter中,您可以在语言字段上进行过滤。
或者,如果您抓取的网站在javascript中的任何位置都没有其语言,您可以为网站bodytext / main文本添加字段名称,然后在索引过滤器中添加一些检查以查看是否它包含阿拉伯文字。