减少我在scala中处理的行数

时间:2018-08-01 13:03:50

标签: scala apache-spark apache-spark-sql

我有一个200万行的数据帧,当我执行一些测试以查看命令是否适用于我的数据时,该过程大约需要5分钟才能结束。因此,我决定仅出于测试目的将数据减少到1000行,那么我会从已有的数据帧中创建一个1000行的数据帧,但是我会重新整理数据以使其不会排序。因此,例如,我需要从每20000行中检索前10行。

1 个答案:

答案 0 :(得分:0)

尝试执行以下操作:

df.sample(0.005)

这基本上是对数据帧进行随机采样并返回一部分数据(例如,在此示例中,每1000个数据中有5行)。

您还可以使用参数对其进行配置(请参见https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.Dataset)。