标签: scala apache-spark apache-spark-sql spark-dataframe
我在scala中使用spark 1.6.0,通常我使用dataFrame来处理数据。 在这种情况下,我需要使用这些源dfEu,dfFlow和dfLt创建一个dataFrame。 它们之间的关系是,dfEu与dfFlow,dfEu与dfLt 需要实现的逻辑是下一个。
实施这些的最佳方法是什么?
使用dataframe join和Except?
使用strutucture数据键值,并将插入低优先级实现为高(保持高优先级)。
或者你建议我采取另一种策略吗?
致以最诚挚的问候,谢谢您的时间。