在https://issues.apache.org/jira/browse/SPARK-23213
中查看开发者的评论: “
o澄清我们不支持R中的RDD。 您不支持通过SparkR :::访问的任何内容,包括unionRDD。 检查spark文档,找不到有关RDD支持问题的任何声明。
Q1:关于此问题的任何SparkR官方文档链接(是否支持RDD / API)?
Q2:这是支持SparkR的RDD API的常见情况(例如SparkR::: map
)吗?现在只允许在SparkR中使用与数据帧相关的API?
答案 0 :(得分:1)
维护人员的答案和:::
应具有权威性和官方性,但是:
SPARK-7230 在SparkR for Spark 1.4中将RDD API设为私有
该文件中与该票证相关的要点是:
- RDD API需要分布式系统的知识,并且水平相当低。这不适合许多习惯使用开箱即用的高级软件包的R用户。
- SparkR中的RDD实现现在并不完全健壮:我们缺少溢出聚合,处理不适合内存的分区等功能。还存在一些限制,例如缺少非本地类型的hashCode等可能影响用户体验的。
考虑到:
gapply
/ dapply
功能的重复。在SparkR中支持RDD确实没有可行的案例。当然,如果您想要自己修复内部错误所需的资源(以及一些或更多的等效开发⏰),没有人会阻止您。