应用错误收集

使用Spark / hadoop存储用户数据和分析它的常见做法是什么？

时间：2015-02-08 01:06:21

标签： mongodb postgresql hadoop apache-spark

我是新来的火花。我已经习惯了一个不熟悉大数据的Web开发人员。

那就是说我有一个门户网站。用户的行为和操作将存储在5个分片的mongoDB集群中。

如何用火花分析它？

或者Spark可以直接从任何数据库获取数据（postgres / mongoDB / mysql /....）。

因为大多数网站都可以使用Relational DB作为后端数据库。

我应该将网站数据库中的整个数据导出到 HBase 吗？

我将所有用户登录到postgreSQL中，将数据导出到HBase或其他Spark提供的数据库是否实用？
如果我将数据复制到新数据库，它似乎会产生大量重复数据。

我的大数据模型是否需要除 Spark 之外的其他框架？

用于分析网站数据库中的数据

我没有看到我需要HDFS，Mesos，...

的原因

如何让Spark工作者可以访问PostgreSQL数据库中的数据？

我只知道如何从文本文件中读取数据

并查看了一些有关如何从 HDFS：//

加载数据的代码

但我现在没有HDFS系统，我应该为我的目的创建一个HDFS吗？

1 个答案:

答案 0 :(得分：3)

Spark是一个分布式计算引擎;所以它希望所有节点都可以访问文件。以下是您可能会考虑的一些选择

似乎有Spark - MongoDB连接器。 This post解释了如何让它发挥作用
将数据从MongoDB导出到Hadoop。然后使用Spark来处理文件。为此，您需要运行Hadoop集群
如果您在亚马逊上，则可以将文件放在S3商店中并从Spark