我正在研究Google Dataflow,它将数据从pubsub中提取出来,转换为avro,然后将其写入GCS。 根据监视页面,瓶颈正在将avro文件写入GCS(花费了总执行时间的70-80%)。
我使用
然后,性能约为每秒20万个元素。 在这种情况下是快速的还是我可以做些什么来使其更快? (我真的很想要!)
谢谢
答案 0 :(得分:0)
您是否考虑过在specific convention之后命名文件,以优化访问权限的读写?
为了保持较高的请求率,请避免使用顺序名称。使用完全随机的对象名称将为您提供最佳的负载分配。如果要将序列号或时间戳记用作对象名称的一部分,请在序列号或时间戳记之前添加一个哈希值,从而在对象名称中引入随机性。
基本上,您需要遵循与在BigTable中选择RowKey相同的规则。