我的用例如下:我们正在使用Spark从HDFS读取和转换数据。转换后的数据应保存在memsql中。
使用Spark写入memsql是否有最佳实践?即,使用Dataframe进行大规模(并行)写入时,确保写入性能和可伸缩性的最佳方法是什么?
首选解决方案是什么:使用memsql / Spark连接器(https://github.com/memsql/memsql-spark-connector)或DataFrame的“write”方法(与MySQL JDBC驱动程序结合使用)。
简而言之:如何将Spark缩放写入memsql?
答案 0 :(得分:1)
MemSQL / Spark连接器有一些特定于memsql的优化,与通过mysql驱动程序编写相比,它可以提高性能。
您还应该看看MemSQL Streamliner(http://docs.memsql.com/latest/spark/),它允许您轻松设置管道以使用Spark将数据加载到memsql中,并为您管理可伸缩性做了大量工作。