我正在使用Python Spark,我试图在每个分区中访问http。但它总是卡在那里,样本如下:
sc = SparkContext(appName="Fetch Http")
lines = sc.textFile("urls.txt", 10)
lines.map(fetch).saveAsTextFile("hdfs://node1/pages")
def fetch(url)
http = urllib3.PoolManager()
postResponse = http.request('POST',url,headers=JSON)
jData = json.loads(postResponse.data)
vectorStr = contertFun(jData)
return vectorStr
答案 0 :(得分:1)
您的代码存在一些问题:
总的来说,它没有多大意义。