安装hadoop并编写map reduce程序

时间:2018-10-10 04:49:02

标签: java hadoop mapreduce

对于一个主题,我已经完成了这项作业。

  

创建hadoop集群并编写map简化程序。

我有一台配备4GB内存和i3处理器的笔记本电脑,我从cloudera网站下载了vmware映像。但是预先配置的虚拟机本身需要4GB RAM。

作业文本说

  

以伪分布式模式安装Cloudera(http://www.cloudera.com/hadoop/)的Hadoop分发版,或使用Cloudera提供的VMWare映像熟悉Hadoop,尤其是分布式文件系统HDFS和Java中的MapReduce程序实现。”

我从cloudera网站下载了vmware映像,但是预先配置的虚拟机本身需要4GB RAM。

我尝试将虚拟机内存的大小从4GB减小到1GB,但这并不好;我的意思是我无法运行cloudera虚拟机。

我有很多mapreduce和java程序,作业要求我这样做。我无法理解其中任何一个。像

  • 在多台计算机上执行“ grep”。
  • 对分布在hadoop集群等中的多台计算机上的文件中的单词频率进行计数。

我想知道如何设置hadoop,使其在Windows8.1机器上运行 这样我就可以运行这些程序

1 个答案:

答案 0 :(得分:0)

Cloudera VM需要6-8GB才能正常运行。

当我上大学的Hadoop课程时,要求我们为所有小于8GB的计算机购买更多的RAM,而我们拥有i5,但是VM仍然非常慢。

默认情况下,即使只是安装Hadoop并在VM之外单独运行服务 ,也至少需要4GB。这还不包括您的操作系统和其他服务(您的浏览器和操作系统可能已经单独占用了1GB)。


就在Windows上实际安装Hadoop而言,我不建议这样做,但是粗略的步骤是

  1. 安装Java。将JAVA_HOME添加为环境变量
  2. 在Windows计算机上安装并运行SSH服务器。确保可以使用PuTTy连接到localhost:22,例如
  3. 然后,然后使用Apache网站(而不是其他可能会过时的随机教程)下载并配置Hadoop。从Single Node开始,然后配置伪分布式。提取Hadoop下载文件后,立即将HADOOP_PREFIXHADOOP_CONF_DIR=%HADOOP_PREFIX%/conf添加为两个环境变量

  
      
  • 在多台计算机上执行“ grep”
  •   
  • 计算文件中的单词频率
  •   

这两个都是文档中给出的示例。不确定是否需要实际编写该代码。


FWIW,您实际上不需要运行的Hadoop集群即可运行MapReduce。默认的Hadoop配置将从您的单个本地文件系统中读取。此外,您的VM还是单台机器,因此“在多台机器上运行”的要求没有多大意义。