通过Nutch Rest API添加URL过滤器正则表达式

时间:2019-01-24 05:57:19

标签: java web-scraping web-crawler nutch

我正在使用Nutch 1.12版抓取网址。我只需要抓取一些特定的网址。我知道可以使用regex-urlfilter文件中的条目来过滤url。我想知道Nutch REST API中有没有可用的选项可以向这些文件添加动态url正则表达式,就像nutch-site.xml中的属性一样。

1 个答案:

答案 0 :(得分:1)

据我所知,您可以更改配置(更改urlfilter.regex.file键),但是无法直接修改文件(默认情况下为regex-urlfilter.txt)。您可能拥有不同的文件,然后将配置更改为指向其他文件,然后重新启动作业。

过去,我做了一些事情来从Web UI动态更改爬网选项(包括过滤器)。这是在我们拥有REST API之前。在这种情况下,自定义组件会从数据库中加载信息/配置选项。