我的情况如下。
我每天都会收到来自不同在线商店和内容提供商(例如CNET数据源)的256 GB产品信息。 这些信息可以是CSV,XML和TXT文件。文件将被解析并存储到MongoDB中。 稍后的信息将转换为可搜索的并编入索引到Elasticsearch。
所有256 GB信息每天都没有不同。大多数70%的信息都是相同的,价格,大小,名称等字段很少会经常更改。 我正在处理文件usig PHP。
我的问题是
请为此问题建议合适的数据库。
答案 0 :(得分:0)
解析庞大的数据 - Spark是满足您需求的最快的分布式解决方案,您认为只有70%的相同数据用于比较它的副本,无论如何必须处理它,在这里您也可以进行映射。
数据存储,如果你在这里进行任何聚合,我建议使用HBase / Impala,如果每一行产品对你很重要使用cassandra
对于serching,没有什么比lucene更快,所以使用Solr或Elasticsearch无论你认为什么都舒服,两者都很好。