我正在使用pyspark在python中编写一个程序,它读取本地系统文件夹中的文件。现在,我想从s3中读取这些文件。为方便起见,数据集在s3中压缩。所以,文件夹结构是
datasets.zip - >数据集(文件夹) - >文件
现在,我想在python spark中阅读这些文件。我弄清楚以下代码:
val AccessKey = "REPLACE_WITH_YOUR_ACCESS_KEY"
val SecretKey = "REPLACE_WITH_YOUR_SECRET_KEY"
val EncodedSecretKey = SecretKey.replace("/", "%2F")
val AwsBucketName = "REPLACE_WITH_YOUR_S3_BUCKET"
val MountName = "REPLACE_WITH_YOUR_MOUNT_NAME"
dbutils.fs.mount(s"s3a://$AccessKey:$EncodedSecretKey@$AwsBucketName", s"/mnt/$MountName")
myRDD = sc.textFile("/mnt/%s/...path_to_your_file..." % MOUNT_NAME)
myRDD.count()
但是,我认为这不会读取文件夹中的所有文件。我该怎么办?
谢谢