我一周以来一直在学习Nutch(版本Nutch-1.14),并且在本地模式以及Hadoop-2.7.2(伪分布式模式)下工作正常。今天我在nutch-site.xml中遇到了“take.screenshot”,“screenshot.location”属性,修改了这些属性后,nutch正在抓取种子网址,但是没有在本地模式和Hadoop中截取屏幕截图。
本地模式的nutch-site.xml设置
<property>
<name>take.screenshot</name>
<value>true</value>
</property>
<property>
<name>screenshot.location</name>
<value>/screenshot</value>
</property>
Hadoop的nutch-site.xml设置
{{1}}
注意“截图”目录存在于HDFS中
答案 0 :(得分:0)
HtmlUnit是“用于Java程序的GUI-Less浏览器”(参见http://htmlunit.sourceforge.net/)。这意味着,HtmlUnit根本不呈现html页面。在内部,所有操作都是基于dom树完成的,没有任何布局。这就是为什么没有选项来截取屏幕截图的原因。
答案 1 :(得分:0)
您是否启用了protocol-selenium
?基本上,这只适用于此协议,默认情况下,Nutch使用不支持此选项的protocol-http
插件,即使您在配置中启用了这些设置。