Spark DataFrame Sample,无需读取整个表数据

时间:2018-09-13 09:09:06

标签: apache-spark apache-spark-sql

我想对表的1%行进行采样。为此,我正在做-

val df = spark.sql("select * from <table>").sample("0.01")
df.collect()

这将扫描我的整个表,其中有大量数据〜100GB。有什么方法可以对1%的记录进行采样而无需读取整个表,而只读取部分数据(〜1-2 GB)。

0 个答案:

没有答案