我可以用Hadoop和Nutch作为搜索引擎做些什么?我知道nutch用于构建网络爬虫。但我找不到完美的画面。我可以使用mapreduce与nutch并做一些mapreduce工作吗?欢迎任何想法。很少有链接会受到高度赞赏。感谢。
答案 0 :(得分:1)
如果您只想进行Map / Reduce作业,则不需要Nutch,只需要Hadoop。 Hadoop为您提供了一个集群文件系统和一个用于文件系统上的map / reduce作业的调度程序。
当Nutch构建在Hadoop之上时,只要您了解数据结构以及爬虫正在做什么,您就可以在Nutch数据上创建自己的map / reduce作业。
但是,如果您只想运行一些map / reduce作业,只需安装hadoop即可。