对于排队的批处理,Spark是否将数据从Kafka分区读入执行程序?

时间:2018-02-05 01:30:36

标签: apache-spark apache-kafka spark-streaming dstream

在使用streaming-kafka-0-8-integration Direct Approach的spark spark中,如果批次排队,执行程序是否会将排队批次的数据拉入其内存?如果没有,那么长时间积压批次会有什么危害?

1 个答案:

答案 0 :(得分:1)

是的,Spark会从Kafka Queue中提取数据并对内存进行处理,这会对Kafka资源造成压力,因为Kafka的批量积压很长。