有没有人有过经历:
有人可以提供延迟信息吗?
由于
答案 0 :(得分:1)
在问题1中,我相信您对BigQuery的摄取延迟感兴趣。每Streaming Data into BigQuery,流数据可在第一次流式插入表格后的几秒内进行实时分析。此延迟很低,但它可能会占据您的延迟由于从Amazon集群到BigQuery API的原始网络通信。
在问题2中,您可能对Dataflow本身的延迟感兴趣 - 假设数据到达数据流流式传输管道,例如通过PubSub,实时,并且您正在处理它并最终写入亚马逊,并且您对结果的恢复速度感兴趣。
这在很大程度上取决于管道的窗口结构(例如,如果您将数据存储到5分钟的窗口中,数据将相应地进行缓冲)。如果你根本不做任何窗口,Dataflow本身引入的延迟应该很低(亚秒级)。有关如何实现的详细信息,您可以参考the MillWheel paper Dataflow的流媒体引擎。