使用Pyspark为列中的每个键/值采样N行

时间:2016-03-21 18:52:40

标签: apache-spark pyspark sampling spark-dataframe

我有数据,每个键都有X行(在这种情况下,它是一个用户)。 X是可变的(例如,我有用户1的1000行/数据点和用户2的50个数据点 - 数据点通常按时间戳排列)。对于每个键(每个用户),从数据中获取N个随机行的最佳方法是什么?我相信使用samplebykey可以工作,如果我有一个分数但我需要每个键N个随机行。

此外,如果密钥少于N行,将返回什么?

0 个答案:

没有答案