应用错误收集

使用Pyspark为列中的每个键/值采样N行

时间：2016-03-21 18:52:40

标签： apache-spark pyspark sampling spark-dataframe

我有数据，每个键都有X行（在这种情况下，它是一个用户）。 X是可变的（例如，我有用户1的1000行/数据点和用户2的50个数据点 - 数据点通常按时间戳排列）。对于每个键（每个用户），从数据中获取N个随机行的最佳方法是什么？我相信使用samplebykey可以工作，如果我有一个分数但我需要每个键N个随机行。

此外，如果密钥少于N行，将返回什么？

0 个答案:

没有答案

每n行为表添加计数器列
每列每n行的统计信息
使用Pyspark为列中的每个键/值采样N行
每n行返回一个列值
在PySpark Dataframe
获取pandas数据帧中每个列值的前n行
SQL每n行获取最大值
pyspark每n行聚合
将每N行移至新列
具有前一行值的新列

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？