使用spark将数据加载到Ignite

时间:2018-03-28 05:56:29

标签: apache-spark ignite

我们正在尝试将60G压缩数据(ORC格式)加载到位于AWS S3中的Ignite。我们目前正在使用spark从S3读取数据并写入点亮(启用本机持久性)。它在应用程序启动时非常快速地加载数据,并且负载逐渐减慢。

这是将数据加载到Ignite的正确方法吗? 我们从这里尝试了一些提示: https://apacheignite.readme.io/docs/performance-tips但没有成功。

注意:Spark和Ignite都在同一个EMR集群上运行。

1 个答案:

答案 0 :(得分:1)

  • 将WAL模式设置为LOG_ONLYBACKGROUND
  • 更好的是,在上传期间使用2.4并完全禁用WAL。
  • 确保您在多个线程中流式传输数据。如果您使用的是DataStreamer,请确保并行向其提供数据。
  • 增加检查点页面缓冲区的大小。
  • 使用PRIMARY_SYNCFULL_ASYNC
  • 的缓存写入同步模式