我正在设计&实现(近)实时网络分析引擎。这类似于Google Analytics和ChartBeat。预计将有近1.5亿个请求/天。我们有5到8台机器,配备2.5GHz(8核)CPU和16 GB RAM。
我正在考虑针对此要求的水平可扩展解决方案。目前,我正在为此目的分析mongo-hadoop组合。从我所知的到现在为止,很难将所有数据保存在一个地方(一台机器)进行分析。因此,Hadoop作为数据处理器和MongoDB作为数据存储对我来说是一个很好的组合。
这种应用程序是否有标准或(我应该说)经过验证的架构?我应该考虑哪些设计考虑因素? mongo-hadoop组合是否适用于某人?
答案 0 :(得分:2)
我猜你已经读过这个了?
http://www.mongodb.org/display/DOCS/Hadoop+Quick+Start
此处有关分片配置的更多详细信息和工作示例 - http://www.slideshare.net/spf13/mongodb-and-hadoop