目前我使用 Spark 和 Cassandra 作为数据存储(我有一些NoSQL要求)。 Spark 有自己的内存处理框架,可以连接到各种数据库,如 Cassandra , MongoDB , Redshift
因此,在通过 Spark 从这些数据库中读取时,数据库的读取性能(或写入性能)是否重要?我希望更改数据存储以便更快地读取。
答案 0 :(得分:4)
简短的回答当然是这样。 基本上是什么火花,它使用所有执行程序从数据存储区读取,数据库提供数据的速度越快,Spark就能越快地访问该数据。
如果您想要更快的读取,请设置一个可扩展的数据存储区,以便可以从不同的计算机并行读取,这样您就不会受到1台计算机的限制。