应用错误收集

将nutch抓取的Web数据存储到hdfs中

时间：2018-04-25 07:44:37

标签： integration hadoop2 nutch

我安装了hadoop 2.x和nutch 1.x.任何人都可以指导我如何将nutch webcrawled数据存储到hdfs？就像提供有关该配置的任何文档或任何链接一样。谢谢大家。

1 个答案:

答案 0 :(得分：0)

Nutch旨在将数据存储在HDFS上。假设Hadoop正在运行且hadoop命令在$ PATH上，您需要

修改配置（conf / nutch-site.xml等）并通过运行ant runtime
调用crawl中的脚本（nutch或runtime/deploy/bin），例如.../runtime/deploy/bin/crawl -s hdfs:///myseeds/ hdfs://.../crawl/ 3

所有已抓取的数据都将存储在HDFS上。如果您没有运行Hadoop集群，则可以从单节点集群开始，请参阅NutchHadoopSingleNodeTutorial和nutch-test-single-node-cluster。