后端数据库在速度方面是否重要,同时通过spark阅读?

时间:2015-09-16 10:53:47

标签: mongodb cassandra apache-spark

目前我使用 Spark Cassandra 作为数据存储(我有一些NoSQL要求)。 Spark 有自己的内存处理框架,可以连接到各种数据库,如 Cassandra MongoDB Redshift

因此,在通过 Spark 从这些数据库中读取时,数据库的读取性能(或写入性能)是否重要?我希望更改数据存储以便更快地读取。

1 个答案:

答案 0 :(得分:4)

简短的回答当然是这样。 基本上是什么火花,它使用所有执行程序从数据存储区读取,数据库提供数据的速度越快,Spark就能越快地访问该数据。

如果您想要更快的读取,请设置一个可扩展的数据存储区,以便可以从不同的计算机并行读取,这样您就不会受到1台计算机的限制。