在Spark中将数据集从网站加载到rdd

时间:2019-11-16 02:51:27

标签: python pyspark dataset

我从pyspark网站上的tar.gz文件加载数据集。 dataset=spark.sparkContext.textFile('https://www.example/example.tar.gz')(URL只是一个例子) 和 dataset.collect() 出错。

1 个答案:

答案 0 :(得分:1)

您不能从网站直接将文件加载到core spark中。您必须将文件从网站下载到本地文件系统并按以下方式加载

dataset=spark.sparkContext.textFile("file:///your file local file path")

或使用以下命令将文件放置在hdfs中后

dataset=spark.sparkContext.textFile(" your hdfs file path")