点击按钮后的apache nutch文件下载

时间:2016-11-28 14:25:55

标签: nutch

apache nutch是否有可能在按钮点击并将其编入索引后从网址下载文件?

示例 - 假设网址为http://example.com 单击http://example.com上的按钮并保存后,将下载文件。我们怎样才能在apache nutch中做到这一点。

1 个答案:

答案 0 :(得分:2)

这实际上取决于按钮的实现方式,如果下载操作只是指向直接文件的链接,它应该可以正常工作。如果下载操作是通过某些javascript事件或带有<button>元素的表单发生的,那么Nutch就不会检测到这一点。如果使用某些javascript生成链接,也许使用protocol-selenium可能会有所帮助。

修改

由于按钮是在onclick事件上触发的,因此最好的办法是使用protocol-interactiveseleniumhttps://github.com/apache/nutch/blob/master/src/plugin/protocol-interactiveselenium/README.md),如果需要,也可以实现自定义处理程序。我个人没有对此进行过测试,但应该可以使用。