我从pyspark网站上的tar.gz文件加载数据集。
dataset=spark.sparkContext.textFile('https://www.example/example.tar.gz')
(URL只是一个例子)
和
dataset.collect()
出错。
答案 0 :(得分:1)
您不能从网站直接将文件加载到core spark中。您必须将文件从网站下载到本地文件系统并按以下方式加载
dataset=spark.sparkContext.textFile("file:///your file local file path")
或使用以下命令将文件放置在hdfs中后
dataset=spark.sparkContext.textFile(" your hdfs file path")