我们正在尝试根据其他RDD中的行从RDD中获取数据。 例如。我们有2个包含主数据和事务数据的表。事务数据具有大量的销售数据,因此我们希望仅获取特定客户和区域值的销售数据,进行计算并将其保存为文件。 table1-CustomerID,regionID 表2 - RegionID,CustomerID,销售,产品ID。
请建议
答案 0 :(得分:0)
您希望将两个RDD
加入.join
函数中。{/ p>
了解更多.. http://apachesparkbook.blogspot.com.au/2015/12/join-leftouterjoin-rightouterjoin.html