使用Apache Beam从Google Cloud Datastore批量读取记录

时间:2019-04-11 17:42:11

标签: python google-cloud-datastore google-cloud-dataflow apache-beam

我正在使用Beam Beam在Beam自己的io.gcp.datastore.v1.datastoreio Python API的帮助下从Google Cloud Datastore读取数据。

我在Google Cloud Dataflow上运行管道。

我想确保我的工作人员不会过载数据。

我该如何批量读取数据或确保使用其他某种机制确保我的工作人员不会一次性提取大量数据?

1 个答案:

答案 0 :(得分:0)

Dataflow automatically does this for you. By default, datastoreio breaks your files into 64MB chucks. If you want to break them up into smaller pieces, use the num_splits parameter on the initializer to specify how many pieces to break each file into.