应用错误收集

时间：2012-08-09 09:50:56

标签： java hadoop real-time

我们有一个网站可以生成需要挖掘的MB / TB数据。我们应该使用哪些技术来实时处理terra字节的数据？ Hadoop，Cassandra适合批量处理;但不是实时的。即时的;意味着处理正在发生的数据并显示相关报告。有什么想法或建议吗？

答案 0 :(得分：2)

你有没有看过the Storm project？它被Twitter使用。这就像是实时Hadoop。

我们将它用于我们的流处理项目之一。这很棒。文档，开发，部署，可扩展性非常棒。我们最近运行了20K消息/秒处理（存储在Cassandra，修改和广播，计算平均值），它可靠地运行并且像魔术一样。绝对值得一试。邮件列表非常友好，我很少用它来提问。

答案 1 :(得分：1)

您可以使用与处理1 MB数据相同的技术处理数据TB，但这需要更长的时间。

我不知道你打算如何“实时”使用数据，我怀疑你的意思是现实世界。

如果您的意思很快，那么您需要总结一下供人食用的数据。您只能一次向用户显示千字节或兆字节的信息。

如果您需要一次性加载数据，则使用内存映射文件可以提高效率。这可以用来处理每秒数千万条记录。

答案 2 :(得分：0)

列出了相关的框架/库，可以在分布式环境中处理大量数据。