hadoop测试示例以验证安装

时间:2014-07-24 11:06:55

标签: hadoop bigdata

我已使用本教程在我的Ubuntu Hadoop 2.4上成功配置了14.04

http://dogdogfish.com/2014/04/26/installing-hadoop-2-4-on-ubuntu-14-04/

现在完成安装后如何对其进行测试?

我如何以及在何处获取测试数据或jar文件?

1 个答案:

答案 0 :(得分:0)

你的hadoop安装目录中有一些示例jar。

您可以做的最简单的事情是运行teragen示例(或wordcount)。 这是执行terasort的第一步。

步骤:

  1. 转到hadoop安装目录。
  2. 运行“hadoop jar hadoop-examples-0.20.2-cdh3u0.jar”查看您可以运行的所有罐子。
  3. 转到home / [user]目录并使用以下数据创建文件“example.txt” “这是一个测试Hadoop安装示例的文件 为了实验,将其视为1TB“
  4. 当您在该目录中时,运行“hadoop dfs -put examples.txt /”,这会将文件上传到您的HDFS
  5. 运行“hadoop dfs -ls /”以检查它是否在那里
  6. 转到您的Hadoop安装目录并运行“hadoop jar hadoop-examples-0.20.2-cdh3u0.jar teragen 1000 / user / teragendata” - 1000是要分解的大小数据而另一个参数是输出目录。
  7. 成功执行后,您会看到类似底部文字的内容。
  8. 现在,要查看您的MR作业是如何运行的,请在浏览器中打开JobTracker并查看已完成的作业。 “localhost50030 / jobtracker.jsp”

  9. cloudera @ cloudera-vm:/ usr / lib / hadoop $ hadoop jar hadoop-examples-0.20.2-cdh3u0.jar teragen 600 / user / teragendata

    使用步长为300的2张地图生成600

    14/07/24 09:02:44 INFO mapred.JobClient:正在运行的职位:job_201407230030_0008

    14/07/24 09:02:45 INFO mapred.JobClient:map 0%reduce 0%

    14/07/24 09:02:57 INFO mapred.JobClient:地图100%减少0%

    14/07/24 09:03:00 INFO mapred.JobClient:工作完成:job_201407230030_0008

    14/07/24 09:03:00 INFO mapred.JobClient:Counters:13

    14/07/24 09:03:00 INFO mapred.JobClient:Job Counters

    14/07/24 09:03:00 INFO mapred.JobClient:SLOTS_MILLIS_MAPS = 22008

    14/07/24 09:03:00 INFO mapred.JobClient:所有人花费的总时间减少了预留时段后的等待时间(ms)= 0

    14/07/24 09:03:00 INFO mapred.JobClient:预留插槽后等待的所有地图所花费的总时间(毫秒)= 0

    14/07/24 09:03:00 INFO mapred.JobClient:推出地图任务= 2

    14/07/24 09:03:00 INFO mapred.JobClient:SLOTS_MILLIS_REDUCES = 0

    14/07/24 09:03:00 INFO mapred.JobClient:FileSystemCounters

    14/07/24 09:03:00 INFO mapred.JobClient:HDFS_BYTES_READ = 164

    14/07/24 09:03:00 INFO mapred.JobClient:FILE_BYTES_WRITTEN = 105150

    14/07/24 09:03:00 INFO mapred.JobClient:HDFS_BYTES_WRITTEN = 60000

    14/07/24 09:03:00 INFO mapred.JobClient:Map-Reduce Framework

    14/07/24 09:03:00 INFO mapred.JobClient:地图输入记录= 600

    14/07/24 09:03:00 INFO mapred.JobClient:Spilled Records = 0

    14/07/24 09:03:00 INFO mapred.JobClient:地图输入字节= 600

    14/07/24 09:03:00 INFO mapred.JobClient:地图输出记录= 600

    14/07/24 09:03:00 INFO mapred.JobClient:SPLIT_RAW_BYTES = 164