标签: scala apache-spark
我的问题是Spark DataFrame.sample()函数利用谓词下推的能力 - 反序列化之前的样本记录。
因此,如果它进行了这样的优化 - 如果分数= 0.1,则镶木地板将首先采样记录并仅反序列化(例如)10%的记录
<div />