我安装了hadoop 2.x和nutch 1.x.任何人都可以指导我如何将nutch webcrawled数据存储到hdfs?就像提供有关该配置的任何文档或任何链接一样。 谢谢大家。
答案 0 :(得分:0)
Nutch旨在将数据存储在HDFS上。假设Hadoop正在运行且hadoop
命令在$ PATH上,您需要
ant runtime
crawl
中的脚本(nutch
或runtime/deploy/bin
),例如
.../runtime/deploy/bin/crawl -s hdfs:///myseeds/ hdfs://.../crawl/ 3
所有已抓取的数据都将存储在HDFS上。如果您没有运行Hadoop集群,则可以从单节点集群开始,请参阅NutchHadoopSingleNodeTutorial和nutch-test-single-node-cluster。