应用错误收集

InMemoryColumnarTableScan可以做什么？

时间：2016-05-06 14:12:18

标签： apache-spark apache-spark-sql

当我运行Spark SQL查询并前往Spark UI DAG可视化时，显示的第一步称为InMemoryColumnarTableScan。

每次运行查询时，我的数据都是从磁盘加载的吗？

如果没有，这一步究竟做了什么？

1 个答案:

答案 0 :(得分：0)

顾名思义，InMemoryColumnarTableScan class包含使用柱状压缩技术查看存储在内存中的表的方法。

它用于收集，缓存和提供存储在内存表中的数据的统计信息，以便更有效地查询表。

因此引擎首先调用它来找出针对RDD运行查询的最佳方法。

它与您的实际数据加载没有任何关系。