我确实看到我们需要在生产者端进行更改以使用Gzip压缩,但我不确定如何在阅读消息时解压缩。 请了解一下从哪里开始。 我已经结束了End Streaming为未压缩的消息工作。
由于
答案 0 :(得分:2)
看起来消费者无缝地关注减压。你不需要做任何事情。您所要做的就是使用设置“compression.codec”配置producer。
请查看this link
答案 1 :(得分:0)
使用者处理压缩的消息。但是,需要考虑一些事项。 我收到此警告:
19/07/12 17:49:15 WARN TaskSetManager:在阶段0.0中丢失了任务1.0(TID 1,10.0.2.15,执行程序0):java.lang.AssertionError:断言失败: 即使在执行后,spark-executor-1 public_test1 5的记录仍然错误 寻求抵消1
我通过转到spark-streaming-kafka-0-10_2 2.4.0版解决了此问题 并设置:spark.streaming.kafka.allowNonConsecutiveOffsets = true
我的Submit命令如下:
spark-submit --class com.streamtest.Main --master spark:// myparkhost:7077-程序包 org.apache.spark:spark-streaming-kafka-0-10_2.11:2.4.0,org.apache.spark:spark-streaming_2.11:2.3.0,org.apache.spark:spark-core_2.11: 2.3.0 --conf spark.streaming.kafka.allowNonConsecutiveOffsets = true /work/streamapp/build/libs/streamapp.jar
我希望这对帮助遇到我同样问题的任何人都是有用的。