我正在使用Beam Beam在Beam自己的io.gcp.datastore.v1.datastoreio
Python API的帮助下从Google Cloud Datastore读取数据。
我在Google Cloud Dataflow上运行管道。
我想确保我的工作人员不会过载数据。
我该如何批量读取数据或确保使用其他某种机制确保我的工作人员不会一次性提取大量数据?
答案 0 :(得分:0)
Dataflow automatically does this for you. By default, datastoreio
breaks your files into 64MB chucks. If you want to break them up into smaller pieces, use the num_splits
parameter on the initializer to specify how many pieces to break each file into.