当我运行Spark SQL查询并前往Spark UI DAG可视化时,显示的第一步称为InMemoryColumnarTableScan。
每次运行查询时,我的数据都是从磁盘加载的吗?
如果没有,这一步究竟做了什么?
答案 0 :(得分:0)
顾名思义,InMemoryColumnarTableScan class包含使用柱状压缩技术查看存储在内存中的表的方法。
它用于收集,缓存和提供存储在内存表中的数据的统计信息,以便更有效地查询表。
因此引擎首先调用它来找出针对RDD运行查询的最佳方法。
它与您的实际数据加载没有任何关系。