应用错误收集

我正在使用一个系统，该系统接收每天24小时运行的50 / s 10kb写入流。数据通过消息系统被摄取到sql数据库中，然后用于隔夜聚合，大约需要15个小时来为应用程序生成可查询数据。

目前所有这些都在sql中，但我们正在转向新架构。

计划是将摄取的写入移动到像Cassandra或dynamodb这样的分布式数据库，然后在hadoop中执行聚合。这使得系统的这些部分可以扩展。

我的问题是，当人们拥有这种架构时，他们在执行写入和聚合之后将数据放在何处，以便可以查询。

更详细：

我们的应用程序使用的查询模型非常复杂，为了使数据在cassandra中可查询，我们必须对所有查询进行非规范化，这是可能的，但这意味着数据大小的大量增长。这是正常做法吗？或者您更愿意将数据移回sql？

我们可以将数据移入红移，但这似乎更适合于临时数据分析，其目的不是成为数据分析应用程序的后端。我还认为这些查询在当前形式中过于复杂，无法写入redmift所需的orm中。

这是否意味着我仍然需要将数据放入sql server？

我正在寻找人们目前正在做什么的例子。

对不起这个问题有点抽象，请不要关闭它，我会添加更多细节。我已经阅读了大量数据，但大多数文章都是关于使用消息传递/工作人员和分布式数据库来获取数据，但我没有发现任何显示他们对这些摄取数据的处理以及如何从应用程序查询数据。

* 回答JosefN的评论：是的，我们不打算对sql db进行非规范化处理。对于所有客户端和查询，选择是对cassandra进行非规范化，这可能意味着当前数据大小的100倍，因为在非规范化模型中会有如此多的重复。另一种选择是将它存储为现在，以便它是可查询的，但是，那么，我唯一的选择是sql db吗？

* 经过更多研究后我得到了更多信息。目前最好的选择似乎是：

以sql
在cassandra的反正义
在hadoop / hdfs之上使用其中一个实时sql引擎，如impala
drpc with storm

我对Impala或DRPC没有暴风雨的经验，所以如果有任何关于延迟的信息和可以用这些执行的查询类型那将是很好的。

请不要参考文档或博客文章，我知道这些技术是如何工作的，我只想知道是否有人在生产中使用它们并且有关于这个主题的自己的信息。感谢

查询大数据

3 个答案: