Pyspark:将文件直接下载到HDFS

时间:2018-06-29 13:01:18

标签: file apache-spark pyspark

我对pyspark还是很陌生,从RDD开始,我以这种形式拥有(URL,名称):

url1 [name1, name2,..., nameN]
url2 [name2, name44,..., nameN]
url3 [name1, name3,..., nameM]
...

对于每个网址,我都想取所有名称,并使用每个名称通过http请求下载单独的文件,例如对于url1,我想采用的方式与此类似(如果我使用的是经典迭代):

requests.get('http://some_site.com/'+str(name1))
requests.get('http://some_site.com/'+str(name2))
...
requests.get('http://some_site.com/'+str(nameN))

问题是我想直接将它们下载到hdfs,而不是将所有文件复制到每个工作程序,就像这里使用命令addFile(path)how can dataframereader read http?所建议的那样 有什么办法可以直接从spark应用程序执行此操作?该文件非常重,我无法将其存储在计算机上,无法再将其上传到hdfs

0 个答案:

没有答案