我正在使用此配置在Ubuntu 11.04计算机中处理具有700多万行(~59 MB)的文件:
Intel(R) Core(TM)2 Duo CPU E8135 @ 2.66GHz, 2280 MHz Memory: 2GB Disk: 100GB
即使在跑了45分钟后,我也没有看到任何进展。
Deleted hdfs://localhost:9000/user/hadoop_admin/output packageJobJar: [/home/hadoop_admin/Documents/NLP/Dictionary/dict/drugs.csv, /usr/local/hadoop/mapper.py, /usr/local/hadoop/reducer.py, /tmp/hadoop-hadoop_admin/hadoop-unjar8773176795802479000/] [] /tmp/streamjob582836411271840475.jar tmpDir=null 11/07/22 10:39:20 INFO mapred.FileInputFormat: Total input paths to process : 1 11/07/22 10:39:21 INFO streaming.StreamJob: getLocalDirs(): [/tmp/hadoop-hadoop_admin/mapred/local] 11/07/22 10:39:21 INFO streaming.StreamJob: Running job: job_201107181559_0099 11/07/22 10:39:21 INFO streaming.StreamJob: To kill this job, run: 11/07/22 10:39:21 INFO streaming.StreamJob: /usr/local/hadoop/bin/../bin/hadoop job -Dmapred.job.tracker=localhost:9001 -kill job_201107181559_0099 11/07/22 10:39:21 INFO streaming.StreamJob: Tracking URL: http://localhost:50030/jobdetails.jsp?jobid=job_201107181559_0099 11/07/22 10:39:22 INFO streaming.StreamJob: map 0% reduce 0%
在Hadoop
模式下使用pseudo distributed
可以处理的最大文件大小是多少。
更新:
我正在使用Hadoop Streaming
做一个简单的wordcount应用程序。我的mapper.py
和reducer.py
占用了50 Sec
来处理220K行(~19MB)的文件。
答案 0 :(得分:0)
问题解决了,我没有杀死以前的工作,所以这个工作加入了队列,这就是为什么它被推迟了。我用了
bin/hadoop -kill <job_id>
杀死所有待处理的工作。在~140 Sec
pseudo distributed mode
答案 1 :(得分:0)
大小限制实际上取决于您拥有的可用存储空间的大小。为了给你一个想法,我已经在一个节点上处理了几个GiB大小的输入文件(gzip压缩的apache日志文件)已经有一段时间了。唯一真正的限制是它需要多长时间,以及这对你来说是否足够快。