s3distcp srcPattern无法正常工作?

时间:2013-08-24 20:43:56

标签: hadoop amazon-s3 elastic-map-reduce

我在S3中有这样的文件:

1-2013-08-22-22-something
2-2013-08-22-22-something
etc

没有srcPattern我可以轻松地从桶中获取所有文件,但我想获得一个特定的前缀,例如所有的1。我已经尝试过使用srcPattern但由于某种原因它没有拿起任何文件。

我当前的命令是:

elastic-mapreduce --jobflow $JOBFLOW --jar /home/hadoop/lib/emr-s3distcp-1.0.jar \
--args '--src,s3n://some-bucket/,--dest,hdfs:///hdfs-input,--srcPattern,[0-9]-.*' \
--step-name "copying over s3 files" 

1 个答案:

答案 0 :(得分:5)

原来你需要。*在正则表达式前面

例如我需要

.*[0-9]-.*

我猜是因为源模式还包括存储桶名称?