我们可以使用WholeTextFile中的文件名来保存dataFrame吗?

时间:2020-09-29 13:27:59

标签: amazon-web-services pyspark amazon-emr

我在S3存储桶中有多个文件,格式为“ CHNC_P0BCDNAF_20200217”。我想一个个地读取每个文件,并在pyspark中进行一些处理。处理后,我将处理后的实木复合地板文件保存在与文件名分开的日期文件夹中。 每个文件处理都应单独执行 例如,上述文件的日期文件夹将为20200217。

我能够从WholeTextFile中拆分文件名和日期,但不能使用相同的文件名和日期创建文件夹

1 个答案:

答案 0 :(得分:0)

我找到了解决方案。我使用了一个shell脚本来列出s3中所有输入的文件名。然后,我通过遍历每个文件来执行我的spark工作。通过将文件名作为参数传递给Spark作业,我能够将每个文件作为不同的Spark作业进行处理。我从全文本文件本身中拆分了文件名和日期,并保存在我的数据框中。谢谢