标签: apache-spark hadoop hive apache-spark-sql
是否可以关闭分区发现?我试图防止将列自动添加到我的数据框中。
例如
如果我有这样的文件夹结构
/data/year=2018/table=foo/....
如果我从数据中读取数据,我不希望年份/表格作为数据框中读取的列
spark.read.orc("/data/*")
应该看起来像
col_1, col_2, ....
不是
col_1, col_2, ..., year, table