如何通过本地pyspark安装读取S3对象?我已经过去了“没有用于方案的文件系统:s3”,但是现在它说它无法加载文件系统。关于此主题有多个问题,我已经尝试了许多建议,但都没有用。
No FileSystem for scheme: s3 with pyspark
How can I read from S3 in pyspark running in local mode?
How can I access S3/S3n from a local Hadoop 2.6 installation?
我收到以下两个错误,一个关于S3文件系统,另一个是AWS凭证。
2018-10-24 14:40:29 WARN FileSystem:2639 - Cannot load filesystem
java.util.ServiceConfigurationError: org.apache.hadoop.fs.FileSystem: Provider org.apache.hadoop.fs.s3a.S3AFileSystem could not be instantiated
Caused by: java.lang.NoClassDefFoundError: com/amazonaws/auth/AWSCredentialsProvider
at java.lang.Class.getDeclaredConstructors0(Native Method)
at java.lang.Class.privateGetDeclaredConstructors(Class.java:2671)
at java.lang.Class.getConstructor0(Class.java:3075)
at java.lang.Class.newInstance(Class.java:412)
at java.util.ServiceLoader$LazyIterator.nextService(ServiceLoader.java:380)