如果Spark的数据将在堆外缓存,它是否具有字节级规范?

时间:2016-04-28 16:18:04

标签: c++ c apache-spark

我从各种博客中了解到,最值得注意的是this one,在不久的将来,Apache Spark将被缓存在Java堆之外(sun.misc.Unsafe)。我无法找到的是,该数据是否具有可以用C或C ++解释的字节中众所周知的布局。有人知道吗?如果是这样,它是“使用风险自负”规范还是支持的API?

我问的原因是我有高度优化的C ++库,我目前无法使用Spark而无需复制JNI或穿梭到外部进程或(等效地)PySpark。能够直接在原始指针上运行C ++代码而不进行复制会很棒。 (当然是只读的。)

有人知道是否有计划允许这个? Spark对Scala / Java,Python和R有很好的支持;添加C / C ++会很不错。

1 个答案:

答案 0 :(得分:2)

谢谢,零323;通过将我指向开发列表,我能够找到我的问题的答案。

http://apache-spark-developers-list.1001551.n3.nabble.com/Tungsten-off-heap-memory-access-for-C-libraries-td13898.html

答案是,这是该项目的激励目标之一,尽管它仍处于设计过程的早期阶段(截至2015年10月)。有JIRA to track