我试图比较Drizzle-Spark Streaming和Spark Streaming的性能。作为我的工作负载设置,我正在从Kafka发送消息。我正在测量吞吐量和延迟。根据Drizzle-Spark的技术报告,它应该以高利润率超越Spark但是,我从我的结果中看到,Drizzle-Spark的延迟和吞吐量与Spark相同
下面是我的代码:
SparkConf sparkConf = new SparkConf().setAppName("JavaKafkaWordCount");
JavaStreamingContext jssc = new JavaStreamingContext(sparkConf, new Duration(2000));
int numThreads = 1;
Map<String, Integer> topicMap = new HashMap<>();
String[] topics = "test".split(",");
for (String topic: topics) {
topicMap.put(topic, numThreads);
}
JavaPairReceiverInputDStream<String, String> messages =
KafkaUtils.createStream(jssc, zooKeeper, group, topicMap);
messages.print();
jssc.start();
jssc.stop();
我在哪里设置Drizzle的组大小,以便包含更多批次?我无法解决这个问题。