何时使用低级API?

时间:2019-02-06 06:38:34

标签: apache-spark pyspark rdd low-level-api

首先,弹性分布式数据集(RDD)是低级API,而数据帧是高级API,所以我的问题是何时使用低级API?

1 个答案:

答案 0 :(得分:-1)

Spark具有两个基本的API集:低级 “非结构化” API和更高级别的结构化API。

RDD既可以处理结构化数据,也可以处理非结构化数据,其中,由于数据帧将数据组织成行列格式,因此适用于结构化数据。您可以根据需要将数据帧转换为rdd。

通常,人们使用数据框,因此使用高级api,因为它提供了更多选项。 但这纯粹取决于您的要求。

我建议您阅读诸如“ Learning Spark”或“ Spark-The Defintive Guide”之类的书,以获取更多的说明。