通过Anaconda中的Pyspark从存储桶读取csv文件

时间:2020-01-28 09:58:08

标签: pyspark google-cloud-storage

我正在通过Anaconda中的PySpark从GCS存储桶读取CSV文件。我正在Pyspark命令提示符下执行-

from pyspark import SparkContext
from pyspark.conf import SparkConf
from pyspark.sql import SparkSession

conf = SparkConf() \
    .setMaster("local[2]") \
    .setAppName("Test") \
    .set("spark.jars", "C:\\path\to\jar\gcs-connector-hadoop-latest.jar") 

sc = SparkContext.getOrCreate(conf=conf)

spark = SparkSession.builder \
    .config(conf=sc.getConf()) \
    .getOrCreate()

spark.read.json("gs://my-bucket")

我得到的错误:

java.lang.IllegalArgumentException:java.net.URISyntaxException:绝对URI中的相对路径:gs:// my-bucket_spark_metadata

我进行了搜索,但是解决方案都讨论了如何更改文件路径。由于这是我引用的GCS存储桶路径,因此无法更改!请帮忙。

Spark 2.0: Relative path in absolute URI (spark-warehouse)

0 个答案:

没有答案