Question

我想从PySpark中的URL加载csv文件，是否可以这样做？我将文件保存在GitHub上。

谢谢！

Answer 1

在pyspark中没有天真的方式（见here）。但是，如果您有一个函数将URL作为输入并输出csv：

def read_from_URL(UR):
    # your logic here
    return data

您可以使用spark来并行化此操作：

URL_list = ['http://github.com/file/location/file1.csv, ...]
data = sc.parallelize(URL_list).map(read_from_URL)