aws / hadoop streaming:将文件作为参数传递给流映射器

时间:2012-12-07 10:30:15

标签: amazon-ec2 mapreduce hadoop-streaming

我正在尝试将S3目录作为参数传递给弹性mapreduce流式传输作业,但似乎EMR将我作为参数传递的目录与流式映射器本身混淆。

即。当我使用以下内容运行时,它可以正常工作:

  "-mapper","perl sams_to_vcf.pl -ref ./ref_genome.fa -vars-only -no-dups",

但是如果我添加目录参数:

  "-mapper", "perl sams_to_vcf.pl -ref ./ref_genome.fa -vars-only -outdir s3://ht-out/Fd09/combined -no-dups",

我得到以下内容:

  "LastStateChangeReason": "Streaming mapper doesn't exist: s3:\/\/ht-out\/Fd09\/combined",

我很确定这是EMR或hadoop中的一个错误,但以防万一有这个不应该起作用的原因?

0 个答案:

没有答案