我对Hadoop更新鲜。我必须找到用户之间交易的符号趋势。
我有2台机器b040n10和b040n11。机器中的文件如下所述:
b040n10:/u/ssekar>ls -lrt
-rw-r--r-- 1 root root 482342353 Feb 8 2014 A.log
-rw-r--r-- 1 root root 481231231 Feb 8 2014 B.log
b040n11:/u/ssekar>ls -lrt
-rw-r--r-- 1 root root 412312312 Feb 8 2014 C.log
-rw-r--r-- 1 root root 412356315 Feb 8 2014 D.log
有一个名为" symbol_name "在所有这些日志上(例如下面的例子)。
IP=145.45.34.2;***symbol_name=ABC;***timestamp=12:13:05
IP=145.45.34.2;***symbol_name=XYZ;***timestamp=12:13:56
IP=145.45.34.2;***symbol_name=ABC;***timestamp=12:14:56
我在笔记本电脑上运行Hadoop,我有2台机器连接到我的笔记本电脑(可以用作Datanodes)。 我现在的任务是获取 symbol_name 列表和符号计数。 如下所述: ABC - 2 XYZ - 1
我现在应该: 1.将所有文件(A.log,B.log,C.log,D.log)从b040n10和b040n11复制到我的笔记本电脑, 2.向HDFS系统发出copyFromLocal命令并分析数据?
还是有更好的方法来找到symbol_name和count而不将这些文件复制到我的笔记本电脑上吗?
问题是基本问题,但我是Hadoop的新手,请帮助我理解并更好地使用Hadoop。如果需要有关该问题的更多信息,请与我们联系。
由于
答案 0 :(得分:0)
将文件从Hadoop复制到本地笔记本电脑违背了Hadoop的全部目的,即将处理移动到数据而不是。因为当你真的拥有" BigData"时,你无法移动数据来在本地处理它。
您的问题是Map / Reduce的典型案例,您需要的只是一个计算每个符号出现次数的作业。只需搜索Map / Reduce WordCount example并根据您的情况进行调整