我刚刚想出如何通过REST API为Nutch的2.3版本完成Nutch抓取。您可以看到我的帖子here。因此,在运行爬网之后,我会转到MongoVue查看结果,并且没有“status”或“baseUrl”字段以及其他字段。现在如果我通过cygwin进行正常爬行,我会获得所有字段。 POST请求到UPDATEDB调用时是否缺少某些参数?
这是我为Updatedb做的最后一次通话。
{
"args":{
"crawlId":"crawl-01",
"batch":"1428526896161-4430"
},
"confId":"default",
"crawlId":"crawl-01",
"type":"UPDATEDB"
}
答案 0 :(得分:0)
我明白了。 GenerateJob步骤中使用的时间戳是错误的。它需要采用特定的格式,而我的代码并不支持它。找到了解决方法。