我们可以使用Apache Spark来存储数据吗?或者它只是一个数据处理工具?

时间:2016-01-13 12:54:51

标签: apache-spark

我是Apache Spark的新手,我想知道是否可以使用Apache Spark存储数据。或者它只是一种处理工具?

感谢您抽出宝贵时间, 萨蒂亚

3 个答案:

答案 0 :(得分:1)

Spark不是数据库,因此无法存储数据"。它处理数据并将其临时存储在内存中,但这不是预先存储的。

在现实生活中的用例中,您通常拥有数据库或数据存储库,可以从spark访问数据。

Spark可以访问以下数据:

  • SQL数据库(可以使用JDBC驱动程序连接的任何内容)
  • 本地文件
  • 云存储(例如Amazon S3)
  • NoSQL数据库。
  • Hadoop文件系统(HDFS)
  • 以及更多...

详细说明可在此处找到:http://spark.apache.org/docs/latest/sql-programming-guide.html#sql

答案 1 :(得分:0)

Apache Spark主要是处理引擎。它适用于底层文件系统,如HDFS,s3和其他支持的文件系统。它还具有从关系数据库中读取数据的功能。但主要是内存分布式处理工具。

答案 2 :(得分:0)

正如您在维基百科中所读到的,Apache Spark被定义为:

  

是一个开源集群计算框架

当我们提到computing时,它与处理工具有关,本质上它允许作为管道方案(或以某种方式ETL)工作,你读数据集,你处理数据,然后存储处理的数据或描述数据的模型。

如果您的主要目标是分发您的数据,那么有一些很好的选择,例如HDFS (Hadoop File System)和其他。