连接两个RDD产生空数据

时间:2018-10-21 14:50:41

标签: apache-spark pyspark rdd databricks

我有两个RDD表,一部分和一部分。

它们有一个公共列'joinKey'。我尝试使用以下代码将这两个表连接起来:

part = sc.textFile("/data/tpch/data-001/part/")
parts = sc.textFile("/data/tpch/data-001/parts/")
joinedRDD = part.join(parts)

但是,当我尝试显示joinedRDD时     joinRDD.take(3)

我回来了:

[(u'1', (u'|', u'|')), (u'1', (u'|', u'|')), (u'1', (u'|', u'|'))]

有什么作用?

1 个答案:

答案 0 :(得分:0)

sc.textFile()返回RDD [String]。您需要使用拆分将字符串解析为数组。然后,您需要将其转换为键值rdd,然后将两者结合起来。

'Export as PDF
Application.DisplayAlerts = False
ActiveSheet.ExportAsFixedFormat Type:=xlTypePDF, Filename:= _
    destinationPath & destinationFilename & ".pdf" _
    , Quality:=xlQualityStandard, IncludeDocProperties:=True, IgnorePrintAreas _
    :=False, OpenAfterPublish:=False