我们有一个网站可以生成需要挖掘的MB / TB数据。我们应该使用哪些技术来实时处理terra字节的数据? Hadoop,Cassandra适合批量处理;但不是实时的。 即时的;意味着处理正在发生的数据并显示相关报告。 有什么想法或建议吗?
答案 0 :(得分:2)
你有没有看过the Storm project?它被Twitter使用。这就像是实时Hadoop。
我们将它用于我们的流处理项目之一。这很棒。文档,开发,部署,可扩展性非常棒。我们最近运行了20K消息/秒处理(存储在Cassandra,修改和广播,计算平均值),它可靠地运行并且像魔术一样。绝对值得一试。邮件列表非常友好,我很少用它来提问。
答案 1 :(得分:1)
您可以使用与处理1 MB数据相同的技术处理数据TB,但这需要更长的时间。
我不知道你打算如何“实时”使用数据,我怀疑你的意思是现实世界。
如果您的意思很快,那么您需要总结一下供人食用的数据。您只能一次向用户显示千字节或兆字节的信息。
如果您需要一次性加载数据,则使用内存映射文件可以提高效率。这可以用来处理每秒数千万条记录。
答案 2 :(得分:0)
查看此页面:http://hadoop.apache.org/
列出了相关的框架/库,可以在分布式环境中处理大量数据。