apache nutch是否有可能在按钮点击并将其编入索引后从网址下载文件?
示例 - 假设网址为http://example.com 单击http://example.com上的按钮并保存后,将下载文件。我们怎样才能在apache nutch中做到这一点。
答案 0 :(得分:2)
这实际上取决于按钮的实现方式,如果下载操作只是指向直接文件的链接,它应该可以正常工作。如果下载操作是通过某些javascript事件或带有<button>
元素的表单发生的,那么Nutch就不会检测到这一点。如果使用某些javascript生成链接,也许使用protocol-selenium
可能会有所帮助。
修改强>
由于按钮是在onclick事件上触发的,因此最好的办法是使用protocol-interactiveselenium
(https://github.com/apache/nutch/blob/master/src/plugin/protocol-interactiveselenium/README.md),如果需要,也可以实现自定义处理程序。我个人没有对此进行过测试,但应该可以使用。