带有火花流的bloomfilter(从kafka读取数据)

时间:2019-06-20 11:33:39

标签: apache-spark orc bloom-filter

我正在使用以下行以HDFS orc格式写入数据。我能够将数据写入HDFS,但是在 hive --orcfiledump filename 上,我没有看到任何Bloom过滤器。

finalDf.writeStream
          .option("orc.bloom.filter.columns", "a,b")
          .option("checkpointLocation", "/user/cloudera")
          .format("orc")
          .partitionBy("x", "y")
          .option("zlib")
          .option("path", "/user/cloudera/records")              .trigger(ProcessingTime(25 seconds))
          .outputMode(OutputMode.Append())
          .start()
    query.awaitTermination()

如何使用spark2.2以具有Bloom过滤器的orc格式写入数据

0 个答案:

没有答案