我有一个带有文档的rdd和一个我反转过来的URL,以将其作为saveAsHadoopFile()的路径参数包括在内,并且文件名是该URL路径的哈希。我的代码:
path_for_hdfs = documents.map(lambda url: (url[1], url_reverser(url[1],
split=True))).map(lambda url: (
url[0],
'/'.join(url[1][0].split('.')),
hashlib.sha256(bytes(url[1][1], 'utf8'))\
.hexdigest()))
这只是了解以上内容的代码。但是我的问题不在那个代码中。我想做
path_for_hdfs.rdd.map(lambda document: document[0]\
.saveAsHadoopFile(path=document[1]+document[2]))
此代码将无法正常工作,因为document [0]不是rdd,但其目的是让我了解想要的东西