如何使用其他RDD中的行值从RDD获取数据

时间:2017-05-15 09:05:57

标签: scala apache-spark dataframe apache-spark-sql

我们正在尝试根据其他RDD中的行从RDD中获取数据。 例如。我们有2个包含主数据和事务数据的表。事务数据具有大量的销售数据,因此我们希望仅获取特定客户和区域值的销售数据,进行计算并将其保存为文件。 table1-CustomerID,regionID 表2 - RegionID,CustomerID,销售,产品ID。

请建议

1 个答案:

答案 0 :(得分:0)

您希望将两个RDD加入.join函数中。{/ p>

了解更多.. http://apachesparkbook.blogspot.com.au/2015/12/join-leftouterjoin-rightouterjoin.html