将rdd的一部分匹配为saveAsHadoopFile的路径

时间:2019-01-10 16:25:55

标签: apache-spark hadoop pyspark

我有一个带有文档的rdd和一个我反转过来的URL,以将其作为saveAsHadoopFile()的路径参数包括在内,并且文件名是该URL路径的哈希。我的代码:

path_for_hdfs = documents.map(lambda url: (url[1], url_reverser(url[1], 
split=True))).map(lambda url: (
                  url[0],
                  '/'.join(url[1][0].split('.')),
                  hashlib.sha256(bytes(url[1][1], 'utf8'))\
             .hexdigest()))

这只是了解以上内容的代码。但是我的问题不在那个代码中。我想做

path_for_hdfs.rdd.map(lambda document: document[0]\
                      .saveAsHadoopFile(path=document[1]+document[2]))

此代码将无法正常工作,因为document [0]不是rdd,但其目的是让我了解想要的东西

0 个答案:

没有答案