我正在通过Anaconda中的PySpark从GCS存储桶读取CSV文件。我正在Pyspark命令提示符下执行-
from pyspark import SparkContext
from pyspark.conf import SparkConf
from pyspark.sql import SparkSession
conf = SparkConf() \
.setMaster("local[2]") \
.setAppName("Test") \
.set("spark.jars", "C:\\path\to\jar\gcs-connector-hadoop-latest.jar")
sc = SparkContext.getOrCreate(conf=conf)
spark = SparkSession.builder \
.config(conf=sc.getConf()) \
.getOrCreate()
spark.read.json("gs://my-bucket")
我得到的错误:
java.lang.IllegalArgumentException:java.net.URISyntaxException:绝对URI中的相对路径:gs:// my-bucket_spark_metadata
我进行了搜索,但是解决方案都讨论了如何更改文件路径。由于这是我引用的GCS存储桶路径,因此无法更改!请帮忙。