首先,弹性分布式数据集(RDD)是低级API,而数据帧是高级API,所以我的问题是何时使用低级API?
答案 0 :(得分:-1)
Spark具有两个基本的API集:低级 “非结构化” API和更高级别的结构化API。
RDD既可以处理结构化数据,也可以处理非结构化数据,其中,由于数据帧将数据组织成行列格式,因此适用于结构化数据。您可以根据需要将数据帧转换为rdd。
通常,人们使用数据框,因此使用高级api,因为它提供了更多选项。 但这纯粹取决于您的要求。
我建议您阅读诸如“ Learning Spark”或“ Spark-The Defintive Guide”之类的书,以获取更多的说明。