Spark的“ Dataframe API”中的“ API”是什么意思?

时间:2019-12-02 10:42:35

标签: apache-spark pyspark apache-spark-sql pyspark-sql

Spark的 Dataframe API 中的“ API”是什么意思? 它与API有什么关系?

1 个答案:

答案 0 :(得分:2)

尽管术语 A 复制 P 制图 I 界面主要用于公开Web服务器服务的元素,但它具有更一般的意义。

对于扩展为 Spark 的框架,它列出了可供用户使用的与库进行交互的特定方式

Spark 具有不同用途的不同 API ,它们用作掩盖更复杂的基础或结构代码(Facade Pattern)的前端接口: 即使每个 spark作业运行基于 RDD的管道, Spark 也提供了不同的构造 job 的方式:

  • 核心API (Spark核心):用户直接操纵RDD,这是低级API
  • 数据集API (Spark SQL):用户操作高级类型的对象
  • DataFrame API (Spark SQL):用户操作高级无类型对象
  • SQL API (Spark SQL):用户编写SQL查询字符串

(最后3个API利用描述性编程模型和操纵数据的结构来产生优化的Spark作业)

注意:按照惯例,在谈论数据集API时,我们讨论的是操纵T与Dataset[T]不同的Row对象。 Dataset[Row]对象的操作称为DataFrame API(因为DataFrameDataset[Row]的类型别名)。