应用错误收集

Spark DataFrame Sample，无需读取整个表数据

时间：2018-09-13 09:09:06

标签： apache-spark apache-spark-sql

我想对表的1％行进行采样。为此，我正在做-

val df = spark.sql("select * from <table>").sample("0.01")
df.collect()

这将扫描我的整个表，其中有大量数据〜100GB。有什么方法可以对1％的记录进行采样而无需读取整个表，而只读取部分数据（〜1-2 GB）。

0 个答案:

没有答案