Question

在kafka和cassandra上使用spark on mesos（因此spark-cassandra-connector）使用spark-streaming我正在听一个kafka主题，然后插入带有.saveToCassandra的cassandra

我有60个cpus分配给spark（30个spark节点和5个casssandra节点），我正在尝试遵循apache spark建议“一般情况下，我们建议群集中每个CPU核心有2-3个任务”。也就是说120-180个任务。

然而，根据收到的输入数据，插入阶段似乎有许多任务。

示例（我的流媒体批处理持续1分钟）：

 900 per minute -> inserting stage has 12 tasks
 50 000 per minute -> inserting stage has 380 tasks

我怎样才能得到：

x per minute -> inserting stage has 180 tasks

Answer 1

你可以在之前调用重新分区来保存cassandra中的数据，这样你就可以将并行性改为你的＆＃34;魔术数量的任务＆＃34;，你也可以将默认的并行性设置为spark的conf参数