Question

我想用Hadoop在Python中处理CSV文件，但我需要引用包含查找信息的另一个文件。

我读到我可以使用-files命令行选项创建本地文件的符号链接，但是如何在我的Python映射文件中引用该文件？

Answer 1

在Amazon EMR中创建此作业后，我可以将文件复制到S3并使用-cacheFile选项直接引用它：

bin/hadoop ... -cacheFile s3://my-bucket/files/cachefile.csv#reference

在Python中我可以打开这个文件：

with open("reference") as reference_file:
    references = reference_file.read().splitlines()