我正在使用以下行以HDFS orc格式写入数据。我能够将数据写入HDFS,但是在 hive --orcfiledump filename
上,我没有看到任何Bloom过滤器。
finalDf.writeStream
.option("orc.bloom.filter.columns", "a,b")
.option("checkpointLocation", "/user/cloudera")
.format("orc")
.partitionBy("x", "y")
.option("zlib")
.option("path", "/user/cloudera/records") .trigger(ProcessingTime(25 seconds))
.outputMode(OutputMode.Append())
.start()
query.awaitTermination()
如何使用spark2.2以具有Bloom过滤器的orc格式写入数据