解释库之间的连接,例如SparkSQL,MLib,GraphX和Spark Streaming,以及核心Spark平台
答案 0 :(得分:1)
基本上,Spark是基础,是一种允许高性能大规模数据处理的引擎。它提供了一个用于使用隐式数据并行和容错进行编程的接口。
GraphX,MLlib,Spark Streaming和Spark SQL是构建在此引擎之上的模块,每个模块都有一个不同的目标。这些库中的每一个都有新的对象和函数,为某些类型的结构或特性提供支持。
例如:
您可以根据需要组合这些模块。例如,如果要处理大图以应用聚类算法,则可以使用 GraphX 提供的表示,并使用 MLlib 在此处应用K-means表示。