性能:Google Dataflow将Avro文件写入GCS

时间:2018-09-13 12:56:29

标签: java apache-beam dataflow

我正在研究Google Dataflow,它将数据从pubsub中提取出来,转换为avro,然后将其写入GCS。 根据监视页面,瓶颈正在将avro文件写入GCS(花费了总执行时间的70-80%)。

我使用

  • n1-standard-8的10名工人
  • 10个分片
  • 5秒固定窗口
  • GCS和Dataflow端点的区域相同。

然后,性能约为每秒20万个元素。 在这种情况下是快速的还是我可以做些什么来使其更快? (我真的很想要!)

谢谢

1 个答案:

答案 0 :(得分:0)

您是否考虑过在specific convention之后命名文件,以优化访问权限的读写?

  

为了保持较高的请求率,请避免使用顺序名称。使用完全随机的对象名称将为您提供最佳的负载分配。如果要将序列号或时间戳记用作对象名称的一部分,请在序列号或时间戳记之前添加一个哈希值,从而在对象名称中引入随机性。

基本上,您需要遵循与在BigTable中选择RowKey相同的规则。