Question

我从pyspark网站上的tar.gz文件加载数据集。 dataset=spark.sparkContext.textFile('https://www.example/example.tar.gz')（URL只是一个例子）和 dataset.collect() 出错。

Answer 1

您不能从网站直接将文件加载到core spark中。您必须将文件从网站下载到本地文件系统并按以下方式加载

dataset=spark.sparkContext.textFile("file:///your file local file path")

或使用以下命令将文件放置在hdfs中后

dataset=spark.sparkContext.textFile(" your hdfs file path")