我有两个RDD表,一部分和一部分。
它们有一个公共列'joinKey'。我尝试使用以下代码将这两个表连接起来:
part = sc.textFile("/data/tpch/data-001/part/")
parts = sc.textFile("/data/tpch/data-001/parts/")
joinedRDD = part.join(parts)
但是,当我尝试显示joinedRDD时 joinRDD.take(3)
我回来了:
[(u'1', (u'|', u'|')), (u'1', (u'|', u'|')), (u'1', (u'|', u'|'))]
有什么作用?
答案 0 :(得分:0)
sc.textFile()返回RDD [String]。您需要使用拆分将字符串解析为数组。然后,您需要将其转换为键值rdd,然后将两者结合起来。
'Export as PDF
Application.DisplayAlerts = False
ActiveSheet.ExportAsFixedFormat Type:=xlTypePDF, Filename:= _
destinationPath & destinationFilename & ".pdf" _
, Quality:=xlQualityStandard, IncludeDocProperties:=True, IgnorePrintAreas _
:=False, OpenAfterPublish:=False