我是Hadoop的新手,我浏览了几个博客,浏览了几本关于某个主题的书籍。为了指导我进一步学习,我需要回答这两个问题:
答案 0 :(得分:0)
MapReduce是一种非常通用的计算结构,虽然并不适用于所有情况,但它可以灵活地用于各种各样的问题。有关您所描述内容的示例,您可以参考Mahout:http://mahout.apache.org/users/clustering/clusteringyourdata.html
使用mongodb连接器,您可以直接访问mongo数据库作为mapreduce inputformat,而无需将数据同步到HDFS:http://docs.mongodb.org/ecosystem/tools/hadoop
或者mongo本身允许您在mapreduce中编写查询以直接由数据库执行。我建议在与hadoop / hdfs连接之前,以这种方式尽可能多地聚合数据,以减少两个系统之间传输的潜在数据量。