标签: sql apache-spark hive apache-spark-sql
我正在执行类似的查询 select <column> from <mytable> where <partition_key> = <value> limit 10
select <column> from <mytable> where <partition_key> = <value> limit 10
,它将永远需要执行。我看了看物理计划,发现里面有一个HiveTableScan,看起来有些可疑,这是否意味着查询正在扫描整个表?我期待查询
HiveTableScan
A。精确扫描1个分区,并且不再扫描
B。返回10行后立即结束扫描
我的理解不正确吗?我该如何使Spark准确地执行此操作?