是否加入,除了在优先级dataFrame中获取行的最佳方法?

时间:2017-10-20 07:41:07

标签: scala apache-spark apache-spark-sql spark-dataframe

我在scala中使用spark 1.6.0,通常我使用dataFrame来处理数据。 在这种情况下,我需要使用这些源dfEu,dfFlow和dfLt创建一个dataFrame。 它们之间的关系是,dfEu与dfFlow,dfEu与dfLt 需要实现的逻辑是下一个。

  1. 获取在dfFlow和dfEu之间连接的所有行
  2. 获取所有拥有dfFlow且我未在下面加入
  3. 的行
  4. 拿下所有拥有dfEu的行,我没有在下面加入
  5. 获取所有拥有dfLt且我没有在dfEu中获取的行
  6. 实施这些的最佳方法是什么?

    使用dataframe join和Except?

    使用strutucture数据键值,并将插入低优先级实现为高(保持高优先级)。

    或者你建议我采取另一种策略吗?

    致以最诚挚的问候,谢谢您的时间。

0 个答案:

没有答案