我意识到在使用ReadFromDatastore
PTransform时,如果查询设置了限制,则查询将不会跨工作人员进行拆分。 Python类的文档说:
“......当query
配置了limit
...时,所有返回的结果将由单个工作人员读取,以确保正确的数据。由于数据被读取来自单个工作人员,这可能会对工作绩效产生重大影响。“
就我而言,我需要指定限制,因为在数据存储区中有更多与实体匹配的实体与此作业所需的实体相匹配。但是,性能损失足够严重,指定限制不会更快(或足够快)给我结果。当我处理了一定数量的实体而没有受到性能影响时,我能以某种方式完成工作并刷新管道?
答案 0 :(得分:0)
您可以省略限制并按其他方式过滤(日期?),然后在数据流上执行前N个。