使用Spark / hadoop存储用户数据和分析它的常见做法是什么?

时间:2015-02-08 01:06:21

标签: mongodb postgresql hadoop apache-spark

我是新来的火花。我已经习惯了一个不熟悉大数据的Web开发人员。

那就是说我有一个门户网站。用户的行为和操作将存储在5个分片的mongoDB集群中。

如何用火花分析它?

或者Spark可以直接从任何数据库获取数据(postgres / mongoDB / mysql /....)。

因为大多数网站都可以使用Relational DB作为后端数据库。

我应该将网站数据库中的整个数据导出到 HBase 吗?

  • 我将所有用户登录到postgreSQL中,将数据导出到HBase或其他Spark提供的数据库是否实用?
  • 如果我将数据复制到新数据库,它似乎会产生大量重复数据。

我的大数据模型是否需要除 Spark 之外的其他框架?

用于分析网站数据库中的数据

我没有看到我需要HDFS,Mesos,...

的原因

如何让Spark工作者可以访问PostgreSQL数据库中的数据?

我只知道如何从文本文件中读取数据

并查看了一些有关如何从 HDFS://

加载数据的代码

但我现在没有HDFS系统,我应该为我的目的创建一个HDFS吗?

1 个答案:

答案 0 :(得分:3)

Spark是一个分布式计算引擎;所以它希望所有节点都可以访问文件。以下是您可能会考虑的一些选择

  1. 似乎有Spark - MongoDB连接器。 This post解释了如何让它发挥作用
  2. 将数据从MongoDB导出到Hadoop。然后使用Spark来处理文件。为此,您需要运行Hadoop集群
  3. 如果您在亚马逊上,则可以将文件放在S3商店中并从Spark
  4. 访问