标签: apache-spark apache-spark-sql
我想对表的1%行进行采样。为此,我正在做-
val df = spark.sql("select * from <table>").sample("0.01") df.collect()
这将扫描我的整个表,其中有大量数据〜100GB。有什么方法可以对1%的记录进行采样而无需读取整个表,而只读取部分数据(〜1-2 GB)。