我想在Jupyter笔记本的帮助下使用Pyspark访问对象存储中的数据。
到目前为止,无论我认为是什么文档,它都是两步走法 1. HDFS连接器到对象存储 https://docs.cloud.oracle.com/iaas/Content/API/SDKDocs/hdfsconnector.htm
2.HDFS连接器连接Spark并提交我的spark作业 https://docs.cloud.oracle.com/iaas/Content/API/SDKDocs/hdfsconnectorspark.htm
我找不到直接连接到对象存储访问权限的任何文档或替代SDK来运行我的Spark作业
答案 0 :(得分:2)
您是否正在运行独立的Spark,或者您是否具有支持HDFS的Hadoop集群?
对于Hadoop,如果您使用的是Apache Hadoop,则可以利用OCI HDFS连接器。
使用Hadoop ISV(Cloudera,Hortonworks,MapR),您将需要利用S3 compatability API。 OCI HDFS连接器还不是Hadoop的本机(但已提交给上游的Apache)。这些ISV可以在单线程模式下工作,但不能并行化。单线程性能不是最佳的,因为对对象存储的访问具有每个线程的上限。
有关独立火花,请参考this documentation,以利用S3兼容性。
答案 1 :(得分:1)
使用HDFS连接器是一种选择,您可能还需要查看Storage Gateway设备,该设备会将对象存储存储段显示为NFS共享,从而允许任何应用程序都具有读/写访问权限(受安全策略限制)您可以申请)-有关更多信息,请参见Storage Documentation。