hadoop - 为什么在Spark UI查询视图中，读取hive Metatore表时输出行的数量显示错误的数字？ - Thinbug

为什么在Spark UI查询视图中，读取hive Metatore表时输出行的数量显示错误的数字？

时间：2017-10-26 14:48:31

标签： hadoop apache-spark pyspark apache-spark-sql

我正在读取一个Metastore表，该表包含存储在Parquet文件中的数据，这些文件有大约100万条记录，但不知何故扫描行数的舞台上的查询视图正在读取一个荒谬的大得多的记录（超过2亿），这些记录在此过程中不断增长（见下面的截图）。这没有意义。

我多次验证打印.count（）的记录数量，并且还直接在Hive中查询，当然，这个数字是100万。

这是我用来读取spark作业中的文件的查询：

delegate :method_name, to: :class

adp_uk.pointx 是我正在阅读的表格。

你知道为什么会这样吗？

0 个答案:

没有答案