我有两个文件客户和销售如下
客户:
cu_id名称区域城市州
1 Rahul ME Vizag AP
2 Raghu SE HYD TS
3 Rohith ME BNLR KA
销售:
sa_id销售国家
2 100000 IND
3 230000美国
4 240000英国
两个文件都是\ t分隔的。 我想基于来自客户的cu_id和使用pyspark的销售中的sa_id加入两个文件,而不使用sparksql / dataframes。
非常感谢您的帮助。
答案 0 :(得分:0)
你绝对可以使用Spark提供的join
方法来处理RDD
的工作。
您可以执行以下操作:
customerRDD = sc.textFile("customers.tsv").map(lambda row: (row.split('\t')[0], "\t".join(row.split('\t')[1:])))
salesRDD = sc.textFile("sales.tsv").map(lambda row: (row.split('\t')[0], "\t".join(row.split('\t')[1:])))
joinedRDD = customerRDD.join(salesRDD)
您将获得一个新的RDD
,其中包含来自客户和销售文件的唯一连接记录。