应用错误收集

时间：2016-01-13 12:54:51

标签： apache-spark

我是Apache Spark的新手，我想知道是否可以使用Apache Spark存储数据。或者它只是一种处理工具？

感谢您抽出宝贵时间，萨蒂亚

答案 0 :(得分：1)

Spark不是数据库，因此无法存储数据＆＃34;。它处理数据并将其临时存储在内存中，但这不是预先存储的。

在现实生活中的用例中，您通常拥有数据库或数据存储库，可以从spark访问数据。

Spark可以访问以下数据：

答案 1 :(得分：0)

Apache Spark主要是处理引擎。它适用于底层文件系统，如HDFS，s3和其他支持的文件系统。它还具有从关系数据库中读取数据的功能。但主要是内存分布式处理工具。

答案 2 :(得分：0)

正如您在维基百科中所读到的，Apache Spark被定义为：

是一个开源集群计算框架

当我们提到computing时，它与处理工具有关，本质上它允许作为管道方案（或以某种方式ETL）工作，你读数据集，你处理数据，然后存储处理的数据或描述数据的模型。

如果您的主要目标是分发您的数据，那么有一些很好的选择，例如HDFS (Hadoop File System)和其他。