apache-spark - 根据PySpark中的列值映射RDD / Dataframe的切片

我有一个类似下面的数据框：

timestamp   key  value
2016-06-29   A   88
2016-06-28   A   89
2016-06-27   A   90
2016-06-29   B   78
2016-06-28   B   79
2016-06-27   B   80
2016-06-29   C   98
2016-06-27   C   99

目标是将其转换为熊猫的RDD。以高效的方式进行系列化。我想要结果：

(A, pandas.Series)
(B, pandas.Series)
(C, pandas.Series)

所以我想操作一个具有相同键的数据帧片段，并为每个片段提供一个（key，pandas.Series）元组作为输出。

已经尝试过的事情/想法：

Spark-ts似乎非常适合这种用途，但似乎python版本已经破解。
试过一个窗口函数，但它并不适合这种情况。
而不是批量阅读它们，根据键转换为panda.Series并重复阅读。太慢 - 不可行。

以快速有效的方式实现这一目标的任何想法/建议？

根据PySpark中的列值映射RDD / Dataframe的切片

0 个答案: