应用错误收集

如何在以伪分布式模式安装的Hadoop中运行Nutch

时间：2017-12-22 10:31:04

标签： hadoop web-crawler nutch

我的Ubuntu上安装了Nutch 1.13。我可以在独立模式下运行爬网。它成功运行并产生了预期的结果，但我不知道如何在hadoop中运行它？我在伪分布式模式下安装了Hadoop，我想用Hadoop运行Nutch爬行并监视它。我该怎么做？有很多教程可以在独立模式下运行它，但我无法找到关于如何在Hadoop中运行它的任何明确说明，除了我必须使用＆＃34; Nutch Job＆＃34;在我用蚂蚁构建它之后。

感谢您的帮助。

1 个答案:

答案 0 :(得分：1)

确保您已从源代码构建Nutch，即不使用仅在本地模式下运行的二进制版本。一旦你用

编译

ant clean runtime

转到 runtime / deploy / bin 并像往常一样运行脚本。

注意，您需要在重新编译之前修改conf文件。

伪模式中没有namenode错误
无法在Nutch部署模式下运行fetcher作业
HBase伪分布式还是全分布式？
Hadoop HBase伪模式 - RegionServer在一段时间后断开连接
用于nutch爬虫的Hbase Standalone与伪分布式模式
如何在分布式模式下运行apache nutch
伪分布式Hadoop
如何在以伪分布式模式安装的Hadoop中运行Nutch
在docker容器中运行HDFS伪模式
在hadoop2.7.2集群nutch上以部署模式运行nutt 1.15比在本地模式下花费更多的时间

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？