作为Amazon-EMR的输入数据,是纯文本的唯一合法格式吗?

时间:2013-04-23 04:07:51

标签: hadoop-streaming amazon-emr

如Amazon EMR的“开发人员指南”所述,输入目录中的文件应格式化为纯文本。这是否意味着我无法上传一些二进制文件或.png文件并通过python脚本解析它们?

1 个答案:

答案 0 :(得分:0)

可能不是。例如,请参阅:https://groups.google.com/a/cloudera.org/forum/?fromgroups=#!topic/cdh-user/AUUZ0DKiJGw

您可以做的是将输入数据作为文件名本身(在S3或HDFS中)。 Hadoop流式脚本将获取文件名作为输入,它可以打开并按其认为合适的方式进行处理。