Hadoop / Python:加载要在映射器中使用的参考文件

时间:2014-10-21 23:17:31

标签: python hadoop

我想用Hadoop在Python中处理CSV文件,但我需要引用包含查找信息的另一个文件。

我读到我可以使用-files命令行选项创建本地文件的符号链接,但是如何在我的Python映射文件中引用该文件?

1 个答案:

答案 0 :(得分:0)

在Amazon EMR中创建此作业后,我可以将文件复制到S3并使用-cacheFile选项直接引用它:

bin/hadoop ... -cacheFile s3://my-bucket/files/cachefile.csv#reference

在Python中我可以打开这个文件:

with open("reference") as reference_file:
    references = reference_file.read().splitlines()