我正在运行一个Python脚本,需要一个文件(genome.fa)作为依赖(引用)来执行。当我运行此命令时:
hadoop jar /usr/local/hadoop/share/hadoop/tools/lib/had oop-streaming-2.5.1.jar -file ./methratio.py -file '../Test_BSMAP/genome.fa' - mapper './methratio.py -r -g ' -input /TextLab/sravisha_test/SamFiles/test_sam -output ./outfile
我收到此错误:
15/01/30 10:48:38 INFO mapreduce.Job: map 0% reduce 0%
15/01/30 10:52:01 INFO mapreduce.Job: Task Idattempt_1422600586708_0001_m_000 009_0, Status : FAILED
Container [pid=22533,containerID=container_1422600586708_0001_01_000017] is running beyond physical memory limits. Current usage: 1.1 GB of 1 GB physical memory used; 2.4 GB of 2.1 GB virtual memory used. Killing container.
我正在使用Cloudera Manager(免费版)。这些是我的配置:
yarn.app.mapreduce.am.resource.cpu-vcores = 1
ApplicationMaster Java Maximum Heap Size = 825955249 B
mapreduce.map.memory.mb = 1GB
mapreduce.reduce.memory.mb = 1 GB
mapreduce.map.java.opts = -Djava.net.preferIPv4Stack=true
mapreduce.map.java.opts.max.heap = 825955249 B
yarn.app.mapreduce.am.resource.mb = 1GB
Java Heap Size of JobHistory Server in Bytes = 397 MB
有人能告诉我为什么会收到此错误吗?
答案 0 :(得分:3)
我认为你的python脚本在读取大型输入文件时会占用大量内存(线索:genome.fa)。
这是我的理由(参考:http://courses.coreservlets.com/Course-Materials/pdf/hadoop/04-MapRed-6-JobExecutionOnYarn.pdf,Container is running beyond memory limits,http://hortonworks.com/blog/how-to-plan-and-configure-yarn-in-hdp-2-0/)
容器的内存使用率= JVM堆大小+ JVM Perm Gen +本机库+生成的进程使用的内存
最后一个变量'产生的进程使用的内存' (Python代码)可能是罪魁祸首。
尝试增加这两个参数的mem大小: mapreduce.map.java.opts
和 mapreduce.reduce.java.opts 。
答案 1 :(得分:0)
尝试增加执行时产生的地图......你可以增加不。通过减小分割大小的映射器... mapred.max.split.size ... 它会产生间接费用,但会缓解这个问题......