我是Apache Spark的新手,我想知道是否可以使用Apache Spark存储数据。或者它只是一种处理工具?
感谢您抽出宝贵时间, 萨蒂亚
答案 0 :(得分:1)
Spark不是数据库,因此无法存储数据"。它处理数据并将其临时存储在内存中,但这不是预先存储的。
在现实生活中的用例中,您通常拥有数据库或数据存储库,可以从spark访问数据。
Spark可以访问以下数据:
详细说明可在此处找到:http://spark.apache.org/docs/latest/sql-programming-guide.html#sql
答案 1 :(得分:0)
Apache Spark主要是处理引擎。它适用于底层文件系统,如HDFS,s3和其他支持的文件系统。它还具有从关系数据库中读取数据的功能。但主要是内存分布式处理工具。
答案 2 :(得分:0)
正如您在维基百科中所读到的,Apache Spark被定义为:
是一个开源集群计算框架
当我们提到computing
时,它与处理工具有关,本质上它允许作为管道方案(或以某种方式ETL)工作,你读数据集,你处理数据,然后存储处理的数据或描述数据的模型。
如果您的主要目标是分发您的数据,那么有一些很好的选择,例如HDFS (Hadoop File System)和其他。