Question

我正在使用spark 1.5.2。我需要使用kafka作为流媒体源来运行spark streaming工作。我需要从kafka中的多个主题中读取并以不同方式处理每个主题。

在同一份工作中做这件事是个好主意吗？如果是这样，我应该为每个主题创建一个包含多个分区或不同流的单个流吗？
我正在使用kafka直接蒸汽。据我所知，spark为每个分区启动了长时间运行的接收器。我有一个相对较小的集群，6个节点，每个节点有4个核心。如果我在每个主题中都有很多主题和分区，那么效率是否会受到影响，因为大多数执行者都忙于长时间运行的接收器？ 如果我的理解错误，请纠正我

Answer 1

我做了以下观察，以防它对某人有用：

在kafka直接流中，接收器不会作为长时间运行的任务运行。在每个批处理inerval的开头，首先从执行程序中的kafka读取数据。一旦阅读，处理部分就会接管。
如果我们创建包含多个主题的单个流，则会逐个读取主题。此外，过滤dstream以应用不同的处理逻辑会为作业添加另一个步骤
创建多个流有两种方式：1。您不需要应用过滤操作来以不同方式处理不同的主题。 2.您可以并行读取多个流（而不是单个流的情况下逐个读取）。为此，有一个未记录的配置参数UPDATE USER_DEFINED_DATA_SETS SET DefaultValue = REPLACE(DefaultValue, 'Area', 'Area_123') WHERE DefaultValue LIKE 'Area' OR DefaultValue LIKE 'Area ' OR DefaultValue LIKE ' Area ' OR DefaultValue LIKE ' Area'。所以，我决定创建多个流。
```
spark.streaming.concurrentJobs*
```

Answer 2

我认为正确的解决方案取决于您的使用案例。

如果您的处理逻辑与所有主题的数据相同，那么毫无疑问，这是一种更好的方法。

如果处理逻辑不同，我猜你从所有主题中得到一个RDD，你必须为每个处理逻辑创建一个pairedrdd并单独处理它。问题在于，这会创建一种分组处理，整体处理速度将由需要最长时间处理的主题确定。因此，数据较少的主题必须等到处理所有主题的数据。一个优点是，如果它是一个时间序列数据，那么处理一起进行，这可能是一件好事。

运行独立作业的另一个好处是可以更好地控制并调整资源共享。例如：处理高吞吐量主题的作业可以分配更高的CPU /内存。

Spark：并行处理多个kafka主题

2 个答案: