apache-spark - Spark 1.3.1中Kafka Direct方法的偏移量

Spark 1.3.1中Kafka Direct方法的偏移量

时间：2015-06-11 17:47:09

标签： apache-spark spark-streaming apache-kafka

我正在实施＆＃39;直接＆＃39; Spark 1.3.1中kafka流的方法 https://spark.apache.org/docs/1.3.1/streaming-kafka-integration.html 根据我的理解，有两种方法可以解决“自动偏移”问题。＆＃39; auto.offset.reset＆＃39;可以设置：＆＃34;最小＆＃34;，＆＃34;最大＆＃34;。我正在观察的行为（并且让我知道这是否是预期的）是＆＃34;最大的＆＃34;将重新开始并接收任何新的传入数据 - 而最小的＆＃34;将从0开始并读到最后，但不会收到任何新的传入数据。显然，最好能够从头开始并接收新的传入数据。我确实看到了每个批次消耗的偏移量（在文档中），但我不确定这在这里有什么用处。感谢。

1 个答案:

答案 0 :(得分：1)

看起来我错了 - “最小的”实际上会继续从最后读取新的/传入数据。

Spark 1.3.1 Python ForeachRDD
Spark 1.3.1中Kafka Direct方法的偏移量
Spark Streaming Kafka Integration直接方法EOFException
使用Spark Streaming中的直接Kafka API，驱动程序查询分区偏移的频率是多少？
Spark Streaming + Kafka：SparkException：无法找到Set的前导偏移
使用python spark direct方法时如何从检查点恢复？
Spark和Kafka直接接近
具有组ID的Spark Streaming Direct Stream方法
卡夫卡偏离范围
Spark Streaming指定起点到终点的偏移量

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？