应用错误收集

我可以更改aws胶作业生成的文件名吗？

时间：2018-10-05 15:29:44

标签： aws-glue

我没有找到更改胶水作业生成的文件名的方法。它创建名为“ run-xxxxx”的文件，但我想修改该文件并使用特定名称。这可能吗？ PD：我使用的是Python脚本（不是scala）

1 个答案:

答案 0 :(得分：1)

Spark（以及Hadoop生态系统的所有其他工具）使用文件名作为并行读写的手段。 spark作业将在文件夹中生成与其RDD / Dataframe中的分区一样多的文件（通常命名为part-XXX。将Spark指向新的数据源（S3，本地FS或HDFS）时，您始终会指向到包含所有part-xxx文件的文件夹。

我不知道您使用的是哪种工具，但是如果它取决于文件名约定，那么在Spark会话结束后，您必须（使用FS客户端）重命名文件（可以是在驱动程序的代码中完成）。请注意，spark可能（通常确实）会产生多个文件。您可以通过在DataFrame / RDD上调用coalesc来克服这一问题。