我想从PySpark中的URL加载csv文件,是否可以这样做? 我将文件保存在GitHub上。
谢谢!
答案 0 :(得分:2)
在pyspark中没有天真的方式(见here)。 但是,如果您有一个函数将URL作为输入并输出csv:
def read_from_URL(UR):
# your logic here
return data
您可以使用spark来并行化此操作:
URL_list = ['http://github.com/file/location/file1.csv, ...]
data = sc.parallelize(URL_list).map(read_from_URL)