为什么在Spark UI查询视图中,读取hive Metatore表时输出行的数量显示错误的数字?

时间:2017-10-26 14:48:31

标签: hadoop apache-spark pyspark apache-spark-sql

我正在读取一个Metastore表,该表包含存储在Parquet文件中的数据,这些文件有大约100万条记录,但不知何故 扫描行数的舞台上的查询视图正在读取一个荒谬的大得多的记录(超过2亿),这些记录在此过程中不断增长(见下面的截图)。这没有意义。

我多次验证打印.count()的记录数量,并且还直接在Hive中查询,当然,这个数字是100万。

enter image description here

这是我用来读取spark作业中的文件的查询:

delegate :method_name, to: :class

adp_uk.pointx 是我正在阅读的表格。

你知道为什么会这样吗?

0 个答案:

没有答案