apache nutch - 如何通过REST

时间:2016-05-18 19:35:11

标签: apache nutch

我想动态更改每个作业的域过滤器配置(例如 - 在种子网址上仅抓取来自其域的网址)。

(我正在执行GET / config / default以查看要更改的内容)

事情是主配置只指向服务器上的文件 - 我无法达到(在这种情况下

"urlfilter.domain.file": "domain-urlfilter.txt",

所以 - 如何动态地通过REST更改插件配置?或者更一般地说,我怎样才能覆盖那些"指向文件" configuraiton

1 个答案:

答案 0 :(得分:2)

使用nutch REST api的create config服务。 你可以这样做: -

POST config / create

    {
    "configId":"myconfig",
    "force":"true",
    "params":{
              "urlfilter.domain.file": "domain-urlfilter.txt",
             }
    }

并将此配置用于该特定作业。