sparkR在版本1.6.1之后不支持与RDD相关的API?

时间:2018-01-27 08:22:09

标签: r apache-spark rdd sparkr

https://issues.apache.org/jira/browse/SPARK-23213

查看开发者的评论: “

  

o澄清我们不支持R中的RDD。   您不支持通过SparkR :::访问的任何内容,包括unionRDD。   检查spark文档,找不到有关RDD支持问题的任何声明。

Q1:关于此问题的任何SparkR官方文档链接(是否支持RDD / API)?

Q2:这是支持SparkR的RDD API的常见情况(例如SparkR::: map)吗?现在只允许在SparkR中使用与数据帧相关的API?

1 个答案:

答案 0 :(得分:1)

维护人员的答案和:::应具有权威性和官方性,但是:

SPARK-7230 在SparkR for Spark 1.4中将RDD API设为私有

  

该文件中与该票证相关的要点是:

     
      
  • RDD API需要分布式系统的知识,并且水平相当低。这不适合许多习惯使用开箱即用的高级软件包的R用户。
  •   
  • SparkR中的RDD实现现在并不完全健壮:我们缺少溢出聚合,处理不适合内存的分区等功能。还存在一些限制,例如缺少非本地类型的hashCode等可能影响用户体验的。
  •   

考虑到:

  • 从Spark的所有部分逐渐弃用RDD API。
  • 可能的功能是gapply / dapply功能的重复。
  • SparkR开发资源已经很薄弱。
  • 如果有足够的兴趣,就不会从头开始删除。

在SparkR中支持RDD确实没有可行的案例。当然,如果您想要自己修复内部错误所需的资源(以及一些或更多的等效开发⏰),没有人会阻止您。