应用错误收集

我对pyspark还是很陌生，从RDD开始，我以这种形式拥有（URL，名称）：

url1 [name1, name2,..., nameN]
url2 [name2, name44,..., nameN]
url3 [name1, name3,..., nameM]
...

对于每个网址，我都想取所有名称，并使用每个名称通过http请求下载单独的文件，例如对于url1，我想采用的方式与此类似（如果我使用的是经典迭代）：

requests.get('http://some_site.com/'+str(name1))
requests.get('http://some_site.com/'+str(name2))
...
requests.get('http://some_site.com/'+str(nameN))

问题是我想直接将它们下载到hdfs，而不是将所有文件复制到每个工作程序，就像这里使用命令addFile（path）how can dataframereader read http?所建议的那样有什么办法可以直接从spark应用程序执行此操作？该文件非常重，我无法将其存储在计算机上，无法再将其上传到hdfs

Pyspark：将文件直接下载到HDFS

0 个答案: