将nutch抓取的Web数据存储到hdfs中

时间:2018-04-25 07:44:37

标签: integration hadoop2 nutch

我安装了hadoop 2.x和nutch 1.x.任何人都可以指导我如何将nutch webcrawled数据存储到hdfs?就像提供有关该配置的任何文档或任何链接一样。 谢谢大家。

1 个答案:

答案 0 :(得分:0)

Nutch旨在将数据存储在HDFS上。假设Hadoop正在运行且hadoop命令在$ PATH上,您需要

  1. 修改配置(conf / nutch-site.xml等)并通过运行ant runtime
  2. (重新)编译Nutch
  3. 调用crawl中的脚本(nutchruntime/deploy/bin),例如 .../runtime/deploy/bin/crawl -s hdfs:///myseeds/ hdfs://.../crawl/ 3
  4. 所有已抓取的数据都将存储在HDFS上。如果您没有运行Hadoop集群,则可以从单节点集群开始,请参阅NutchHadoopSingleNodeTutorialnutch-test-single-node-cluster