我是新来的火花。我已经习惯了一个不熟悉大数据的Web开发人员。
那就是说我有一个门户网站。用户的行为和操作将存储在5个分片的mongoDB集群中。
如何用火花分析它?
或者Spark可以直接从任何数据库获取数据(postgres / mongoDB / mysql /....)。
因为大多数网站都可以使用Relational DB作为后端数据库。
用于分析网站数据库中的数据
我没有看到我需要HDFS,Mesos,...
的原因
我只知道如何从文本文件中读取数据
并查看了一些有关如何从 HDFS://
加载数据的代码但我现在没有HDFS系统,我应该为我的目的创建一个HDFS吗?
答案 0 :(得分:3)
Spark是一个分布式计算引擎;所以它希望所有节点都可以访问文件。以下是您可能会考虑的一些选择