需要最佳数据库来处理大量数据

时间:2015-11-09 06:33:20

标签: php mongodb elasticsearch bigdata database

我的情况如下。

我每天都会收到来自不同在线商店和内容提供商(例如CNET数据源)的256 GB产品信息。 这些信息可以是CSV,XML和TXT文件。文件将被解析并存储到MongoDB中。 稍后的信息将转换为可搜索的并编入索引到Elasticsearch。

所有256 GB信息每天都没有不同。大多数70%的信息都是相同的,价格,大小,名称等字段很少会经常更改。 我正在处理文件usig PHP。

我的问题是

  1. 解析大量数据
  2. 映射DB中的字段(例如,标题不是所有onlineshops的标题。它们将字段名称设为Short-Title或其他名称)
  3. 每天增加GB信息。如何存储所有和处理。 (可能是Bigdata但不确定如何使用它)
  4. 使用大量数据快速搜索信息。
  5. 请为此问题建议合适的数据库。

1 个答案:

答案 0 :(得分:0)

  1. 解析庞大的数据 - Spark是满足您需求的最快的分布式解决方案,您认为只有70%的相同数据用于比较它的副本,无论如何必须处理它,在这里您也可以进行映射。

  2. 数据存储,如果你在这里进行任何聚合,我建议使用HBase / Impala,如果每一行产品对你很重要使用cassandra

  3. 对于serching,没有什么比lucene更快,所以使用Solr或Elasticsearch无论你认为什么都舒服,两者都很好。