根据PySpark中的列值映射RDD / Dataframe的切片

时间:2016-06-29 09:36:34

标签: apache-spark pyspark rdd spark-dataframe

我有一个类似下面的数据框:

timestamp   key  value
2016-06-29   A   88
2016-06-28   A   89
2016-06-27   A   90
2016-06-29   B   78
2016-06-28   B   79
2016-06-27   B   80
2016-06-29   C   98
2016-06-27   C   99

目标是将其转换为熊猫的RDD。以高效的方式进行系列化。我想要结果:

(A, pandas.Series)
(B, pandas.Series)
(C, pandas.Series)

所以我想操作一个具有相同键的数据帧片段,并为每个片段提供一个(key,pandas.Series)元组作为输出。

已经尝试过的事情/想法:

  1. Spark-ts似乎非常适合这种用途,但似乎python版本已经破解。
  2. 试过一个窗口函数,但它并不适合这种情况。
  3. 而不是批量阅读它们,根据键转换为panda.Series并重复阅读。太慢 - 不可行。
  4. 以快速有效的方式实现这一目标的任何想法/建议?

0 个答案:

没有答案