从URL加载PySpark

时间:2017-01-11 18:39:26

标签: csv url download pyspark

我想从PySpark中的URL加载csv文件,是否可以这样做? 我将文件保存在GitHub上。

谢谢!

1 个答案:

答案 0 :(得分:2)

在pyspark中没有天真的方式(见here)。 但是,如果您有一个函数将URL作为输入并输出csv:

def read_from_URL(UR):
    # your logic here
    return data

您可以使用spark来并行化此操作:

URL_list = ['http://github.com/file/location/file1.csv, ...]
data = sc.parallelize(URL_list).map(read_from_URL)