我是PipelineDB的新手,甚至还没有在运行时体验过它(安装待定......)。但是我正在阅读文档,我完全被吸引了。
显然,PipelineDB能够采用基于集合的查询表示,并将它们机械地转换为增量表示,以便有效地处理增量流,其中存储受限于连续视图的输出。
是否还支持将基于集合的查询作为基于集合的查询运行以启动连续视图?在我看来,在创建连续视图时,初始数据将以传统方式计算。此外,由于连续视图可以被截断,它们是否可以重新填充(从仍然可用的源表),而不会拆除它允许删除/创建的任何依赖对象?
在我看来,这个功能在许多实际场景中都很重要。一个简单的例子是偶尔刷新以重置舍入误差的漂移,例如,分数平均值。
另一个例子是如果在PipelineDB中发现并修复了导致数据错误的错误。修补软件后,应该重新运行基于仍然可用数据的查询。
完全基于没有永久存储的事件流的连续视图无法以这种方式重建。不确定是否只有部分连接源是短暂的。
我没有看到文档中涉及的这些主题。你能解释一下这些是关注的吗?
谢谢!
答案 0 :(得分:0)
来自PipelineDB的Jeff。
您的问题的主要答案在PipelineDB技术文档的introduction section中有所介绍:
" PipelineDB可以显着减少需要持久保存到磁盘的信息量,因为只存储了连续查询的输出。原始数据一旦被需要读取的连续查询读取就会被丢弃。"
虽然连续视图只存储连续查询的输出,但几乎所有使用PipelineDB的人都将原始数据存储在像S3这样便宜的地方。 PipelineDB旨在成为实时分析层,为实时报告应用程序和实时监控等提供支持。警报系统,几乎总是与其他系统一起用于数据基础设施。
如果您对PipelineDB感兴趣,您可能还想查看我们最近推出的名为Stride的新实时分析API产品。 Stride API为开发人员提供了连续SQL查询,集成存储,窗口查询以及实时webhook等其他功能,无需管理任何底层数据基础架构,所有这些都通过简单的HTTP API实现。
如果您有任何其他技术问题,可以随时在我们的gitter聊天频道中找到我们的开源用户和开发团队。