AWS与&之间的流日志数据延迟是多少?谷歌云服务?

时间:2015-12-15 00:56:10

标签: amazon-web-services google-bigquery amazon-dynamodb google-cloud-dataflow amazon-kinesis

有没有人有过经历:

  1. 从Amazon发送流式/微批量日志数据到BigQuery进行处理,可以解决任何延迟问题吗?
  2. 从Google DataFlow向亚马逊(Kinesis / S3 / DynamoDB)发送(微批量)日志
  3. 有人可以提供延迟信息吗?

    由于

1 个答案:

答案 0 :(得分:1)

在问题1中,我相信您对BigQuery的摄取延迟感兴趣。每Streaming Data into BigQuery流数据可在第一次流式插入表格后的几秒内进行实时分析。此延迟很低,但它可能会占据您的延迟由于从Amazon集群到BigQuery API的原始网络通信。

在问题2中,您可能对Dataflow本身的延迟感兴趣 - 假设数据到达数据流流式传输管道,例如通过PubSub,实时,并且您正在处理它并最终写入亚马逊,并且您对结果的恢复速度感兴趣。

这在很大程度上取决于管道的窗口结构(例如,如果您将数据存储到5分钟的窗口中,数据将相应地进行缓冲)。如果你根本不做任何窗口,Dataflow本身引入的延迟应该很低(亚秒级)。有关如何实现的详细信息,您可以参考the MillWheel paper Dataflow的流媒体引擎。