我和我的团队开始使用Google Cloud Dataflow远程运行我们的工作,而不是在我们的计算机上本地运行。我们从Python中设置的julian示例开始,以确保部署成功运行。
它确实在Google Cloud Dataflow上完成,即使它花费的时间比在本地计算机上花费的时间更长。
我们遇到的问题是他们使用基于零的索引和一个基于同一文件名的索引,这对我们来说没有意义。
我们认为结束于00008-00008或00009-00009比结束于00008-00009更有意义。无论如何我们可以解决这个问题,以便左侧和右侧的数字匹配吗?
答案 0 :(得分:0)
通过使用0000X-of-0000Y
格式,Beam尝试执行index-of-count
。右边的数字是分片的总数,而左边的数字是从零开始的索引。
Apache Beam中的接收器目前不支持(轻松)更改此行为。要自己添加它,你必须修改Apache Beam中的代码(具体来说,around here)。
希望这有帮助。