应用错误收集

从Kafka读取时如何异步制作火花流

时间：2015-09-06 01:46:44

标签： apache-kafka spark-streaming

我有一个Kafka分区和一个sparkStreaming应用程序。一台10核的服务器。当火花流从Kafka获得一条消息时，后续过程将花费5秒钟（这是我的代码）。所以我发现sparkStreaming读取Kafka的消息非常慢，我猜测当spark读出一条消息时它会等到消息处理完毕，因此读取和处理是同步的。我想知道我可以异步进行火花读数吗？因此，卡夫卡的阅读不会受到后续处理的拖累。然后火花将很快消耗卡夫卡的数据。然后我可以专注于内部火花的慢速数据处理。顺便说一下，我使用的是foreachRDD功能。

1 个答案:

答案 0 :(得分：0)

你可以增加kafka中的分区数量，它应该提高并行度，你可以尝试使用“直接kafka接收器”，当你的应用程序从kafka读取时真正提高性能

如何使Spark Streaming（Spark 1.0.0）读取Kafka的最新数据（Kafka Broker 0.8.1）
Kafka Spark流媒体：无法阅读消息
从Kafka读取时如何异步制作火花流
如何从InputStream中读取？
如何从Kafka读取所有记录（从开始到开始）然后停止StreamingContext？
FAIR调度模式是否可以使从不同主题读取的Spark Streaming作业并行运行？
无法使用Spark Streaming Kafka从Kafka主题中读取消息
如何从kafka中的文件中读取日志？
如何从Spark结构化流中的特定Kafka分区读取
无法从安全的Kafka（EventStreams）读取Spark Streaming readStream

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？