如何阅读从主题到Spark Streaming的Kafka gzip压缩消息

时间:2017-12-19 20:29:07

标签: apache-spark apache-kafka spark-streaming kafka-consumer-api

我确实看到我们需要在生产者端进行更改以使用Gzip压缩,但我不确定如何在阅读消息时解压缩。 请了解一下从哪里开始。 我已经结束了End Streaming为未压缩的消息工作。

由于

2 个答案:

答案 0 :(得分:2)

看起来消费者无缝地关注减压。你不需要做任何事情。您所要做的就是使用设置“compression.codec”配置producer。

请查看this link

答案 1 :(得分:0)

使用者处理压缩的消息。但是,需要考虑一些事项。 我收到此警告:

  

19/07/12 17:49:15 WARN TaskSetManager:在阶段0.0中丢失了任务1.0(TID   1,10.0.2.15,执行程序0):java.lang.AssertionError:断言失败:   即使在执行后,spark-executor-1 public_test1 5的记录仍然错误   寻求抵消1

我通过转到spark-streaming-kafka-0-10_2 2.4.0版解决了此问题 并设置:spark.streaming.kafka.allowNonConsecutiveOffsets = true

我的Submit命令如下:

  

spark-submit --class com.streamtest.Main --master   spark:// myparkhost:7077-程序包   org.apache.spark:spark-streaming-kafka-0-10_2.11:2.4.0,org.apache.spark:spark-streaming_2.11:2.3.0,org.apache.spark:spark-core_2.11: 2.3.0   --conf spark.streaming.kafka.allowNonConsecutiveOffsets = true /work/streamapp/build/libs/streamapp.jar

我希望这对帮助遇到我同样问题的任何人都是有用的。