在“伪分布式”模式下使用Hadoop可以处理的最大文件大小

时间:2011-07-22 03:20:48

标签: hadoop mapreduce

我正在使用此配置在Ubuntu 11.04计算机中处理具有700多万行(~59 MB)的文件:

Intel(R) Core(TM)2 Duo CPU     E8135  @ 2.66GHz, 2280 MHz
Memory: 2GB
Disk: 100GB

即使在跑了45分钟后,我也没有看到任何进展。

Deleted hdfs://localhost:9000/user/hadoop_admin/output
packageJobJar: [/home/hadoop_admin/Documents/NLP/Dictionary/dict/drugs.csv, /usr/local/hadoop/mapper.py, /usr/local/hadoop/reducer.py, /tmp/hadoop-hadoop_admin/hadoop-unjar8773176795802479000/] [] /tmp/streamjob582836411271840475.jar tmpDir=null
11/07/22 10:39:20 INFO mapred.FileInputFormat: Total input paths to process : 1
11/07/22 10:39:21 INFO streaming.StreamJob: getLocalDirs(): [/tmp/hadoop-hadoop_admin/mapred/local]
11/07/22 10:39:21 INFO streaming.StreamJob: Running job: job_201107181559_0099
11/07/22 10:39:21 INFO streaming.StreamJob: To kill this job, run:
11/07/22 10:39:21 INFO streaming.StreamJob: /usr/local/hadoop/bin/../bin/hadoop job  -Dmapred.job.tracker=localhost:9001 -kill job_201107181559_0099
11/07/22 10:39:21 INFO streaming.StreamJob: Tracking URL: http://localhost:50030/jobdetails.jsp?jobid=job_201107181559_0099
11/07/22 10:39:22 INFO streaming.StreamJob:  map 0%  reduce 0%

Hadoop模式下使用pseudo distributed可以处理的最大文件大小是多少。

更新:

我正在使用Hadoop Streaming做一个简单的wordcount应用程序。我的mapper.pyreducer.py占用了50 Sec来处理220K行(~19MB)的文件。

2 个答案:

答案 0 :(得分:0)

问题解决了,我没有杀死以前的工作,所以这个工作加入了队列,这就是为什么它被推迟了。我用了 bin/hadoop -kill <job_id> 杀死所有待处理的工作。在~140 Sec

中处理整个文件(~59 MB)需要pseudo distributed mode

答案 1 :(得分:0)

大小限制实际上取决于您拥有的可用存储空间的大小。为了给你一个想法,我已经在一个节点上处理了几个GiB大小的输入文件(gzip压缩的apache日志文件)已经有一段时间了。唯一真正的限制是它需要多长时间,以及这对你来说是否足够快。