应用错误收集

我有一个带有文档的rdd和一个我反转过来的URL，以将其作为saveAsHadoopFile（）的路径参数包括在内，并且文件名是该URL路径的哈希。我的代码：

path_for_hdfs = documents.map(lambda url: (url[1], url_reverser(url[1], 
split=True))).map(lambda url: (
                  url[0],
                  '/'.join(url[1][0].split('.')),
                  hashlib.sha256(bytes(url[1][1], 'utf8'))\
             .hexdigest()))

这只是了解以上内容的代码。但是我的问题不在那个代码中。我想做

path_for_hdfs.rdd.map(lambda document: document[0]\
                      .saveAsHadoopFile(path=document[1]+document[2]))

此代码将无法正常工作，因为document [0]不是rdd，但其目的是让我了解想要的东西

将rdd的一部分匹配为saveAsHadoopFile的路径

0 个答案: