我想用Hadoop在Python中处理CSV文件,但我需要引用包含查找信息的另一个文件。
我读到我可以使用-files命令行选项创建本地文件的符号链接,但是如何在我的Python映射文件中引用该文件?
答案 0 :(得分:0)
在Amazon EMR中创建此作业后,我可以将文件复制到S3并使用-cacheFile
选项直接引用它:
bin/hadoop ... -cacheFile s3://my-bucket/files/cachefile.csv#reference
在Python中我可以打开这个文件:
with open("reference") as reference_file:
references = reference_file.read().splitlines()