应用错误收集

Spark Streaming DirectAPI中“spark.streaming.blockInterval”的用途是什么

时间：2016-12-17 15:24:04

标签： apache-spark apache-kafka spark-streaming kafka-consumer-api

我想了解，"spark.streaming.blockInterval"在Spark Streaming DirectAPI中扮演什么角色，根据我的理解"spark.streaming.blockInterval"用于计算分区，即#partitions = (receivers x* batchInterval) /blockInterval，但在DirectAPI火花流分区中是等的没有。 kafka分区。

如何在DirectAPI中使用"spark.streaming.blockInterval"？

1 个答案:

答案 0 :(得分：0)

spark.streaming.blockInterval：

Spark Streaming 接收器收到的数据在存储到Spark之前被分块为数据块的时间间隔。

KafkaUtils.createDirectStream（）不使用接收器。

使用directStream，Spark Streaming将创建尽可能多的RDD分区因为有Kafka分区要消费

什么是三叉戟在Spark Streaming中的persistentAggregate等价物？
什么是在火花流中设置检查点间隔的使用？
什么样的火花操作并行处理？
关于spark-streaming的start（），awaitTermination（）和stop（）的用例是什么？
BatchInfo中numRecords的含义是什么？
Spark Streaming DirectAPI中“spark.streaming.blockInterval”的用途是什么
火花中重叠窗口的用途是什么？
什么是正确使用Spark Streaming
PySpark中monotonically_increasing_id的用途是什么
Spark结构化流中ForeachWriter的目的是什么？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？