从目录下的HDFS读取大量orc文件时,spark会在一段时间内不会启动任何任务,并且在这段时间内我看不到任何任务在运行。我正在使用以下命令读取orc和spark.sql配置。
发出spark.read.orc时,引擎盖下的火花在做什么?
spark.read.schema(schame1).orc("hdfs://test1").filter("date >= 20181001")
"spark.sql.orc.enabled": "true",
"spark.sql.orc.filterPushdown": "true
我也没有直接读取orc文件,而是尝试在同一数据集上运行Hive查询。但是我无法推送过滤谓词。我应该在哪里设置以下配置
"hive.optimize.ppd":"true",
"hive.optimize.ppd.storage":"true"
建议从HDFS读取orc文件和调整参数的最佳方法是什么?