使用Spark写入memsql的最佳实践

时间:2016-01-15 10:23:24

标签: apache-spark scalability memsql

我的用例如下:我们正在使用Spark从HDFS读取和转换数据。转换后的数据应保存在memsql中。

使用Spark写入memsql是否有最佳实践?即,使用Dataframe进行大规模(并行)写入时,确保写入性能和可伸缩性的最佳方法是什么?

首选解决方案是什么:使用memsql / Spark连接器(https://github.com/memsql/memsql-spark-connector)或DataFrame的“write”方法(与MySQL JDBC驱动程序结合使用)。

简而言之:如何将Spark缩放写入memsql?

1 个答案:

答案 0 :(得分:1)

MemSQL / Spark连接器有一些特定于memsql的优化,与通过mysql驱动程序编写相比,它可以提高性能。

您还应该看看MemSQL Streamliner(http://docs.memsql.com/latest/spark/),它允许您轻松设置管道以使用Spark将数据加载到memsql中,并为您管理可伸缩性做了大量工作。