应用错误收集

Hadoop Map / Reduce - 简单的使用示例来执行以下操作

时间：2010-04-22 04:46:04

标签： nosql hadoop mapreduce bigtable

我有MySQL数据库，我存储以下BLOB（包含JSON对象）和ID（对于此JSON对象）。 JSON对象包含许多不同的信息。比如，“城市：洛杉矶”和“州：加利福尼亚”。

现在大约有500,000个这样的记录，但它们正在增长。每个JSON对象都很大。

我的目标是在MySQL数据库中进行搜索（实时）。说，我想搜索所有“州”到“加利福尼亚”和“城市”到“旧金山”的JSON对象。

我想利用Hadoop完成任务。我的想法是会有“工作”，从MySQL获取100个记录（行）的块，根据给定的搜索条件验证它们，返回符合条件的那些（ID）。

优点/缺点？我知道有人可能认为我应该利用简单的SQL功能，但问题是JSON对象结构非常“重”，如果我把它作为SQL模式，那么至少会有3-5个表连接，其中（我试过，真的）造成了很大的麻烦，构建所有正确的索引比我想象的更快地占用内存。 ;-)即便如此，每个SQL查询都必须进行分析以利用索引，否则完全扫描它确实很痛苦。有了这样的结构，我们唯一的方法是“向上”只是垂直缩放。但我不确定这对我来说是最好的选择，因为我看到JSON对象将如何增长（数据结构），我发现它们的数量也会增长。： - ）

帮助？有人能指出我如何做到这一点的简单例子吗？它有意义吗？我错过了一些重要的事情吗？

谢谢。

3 个答案:

答案 0 :(得分：2)

几点需要考虑：

Hadoop（特别是HDFS）在一组机器周围分发数据。使用MapReduce分析/处理此数据需要将数据存储在HDFS上，以利用Hadoop提供的并行处理能力。
Hadoop / MapReduce几乎不是实时的。即使在运行少量数据时，Hadoop设置作业所需的时间也可能超过30秒。这是无法阻止的。

可能需要考虑的事情是使用Lucene将JSON对象编入索引作为文档。您可以将索引存储在solr中，并轻松查询您想要的任何内容。

答案 1 :(得分：0)

实际上你是..因为在一个巨大的字段中搜索文本将比索引数据库和搜索正确的sql方式花费更多的时间。数据库是为了与sql和索引一起使用而构建的，它没有能力解析和索引json，所以无论你在json中搜索哪种方式（可能只是hacky字符串匹配）都会慢得多。 500k行对于mysql来说并不是那么多，你真的不需要hadoop，只是一个很好的规范化架构，正确的索引和优化的查询

答案 2 :(得分：0)

听起来你正在尝试重新创建CouchDB。 CouchDB使用map-reduce框架构建，专门用于JSON对象。