apache-spark - 带有火花流的bloomfilter（从kafka读取数据）

我正在使用以下行以HDFS orc格式写入数据。我能够将数据写入HDFS，但是在 hive --orcfiledump filename 上，我没有看到任何Bloom过滤器。

finalDf.writeStream
          .option("orc.bloom.filter.columns", "a,b")
          .option("checkpointLocation", "/user/cloudera")
          .format("orc")
          .partitionBy("x", "y")
          .option("zlib")
          .option("path", "/user/cloudera/records")              .trigger(ProcessingTime(25 seconds))
          .outputMode(OutputMode.Append())
          .start()
    query.awaitTermination()

如何使用spark2.2以具有Bloom过滤器的orc格式写入数据

带有火花流的bloomfilter（从kafka读取数据）

0 个答案: