NUTCH:如何使take.screenshot和screenshot.location属性工作?

时间:2018-02-21 20:46:53

标签: hadoop ubuntu-16.04 nutch

我一周以来一直在学习Nutch(版本Nutch-1.14),并且在本地模式以及Hadoop-2.7.2(伪分布式模式)下工作正常。今天我在nutch-site.xml中遇到了“take.screenshot”,“screenshot.location”属性,修改了这些属性后,nutch正在抓取种子网址,但是没有在本地模式和Hadoop中截取屏幕截图。

本地模式的nutch-site.xml设置

<property>
 <name>take.screenshot</name>
 <value>true</value>
</property>

<property>
 <name>screenshot.location</name>
 <value>/screenshot</value>
</property>

Hadoop的nutch-site.xml设置

{{1}}

注意“截图”目录存在于HDFS中

2 个答案:

答案 0 :(得分:0)

HtmlUnit是“用于Java程序的GUI-Less浏览器”(参见http://htmlunit.sourceforge.net/)。这意味着,HtmlUnit根本不呈现html页面。在内部,所有操作都是基于dom树完成的,没有任何布局。这就是为什么没有选项来截取屏幕截图的原因。

答案 1 :(得分:0)

您是否启用了protocol-selenium?基本上,这只适用于此协议,默认情况下,Nutch使用不支持此选项的protocol-http插件,即使您在配置中启用了这些设置。