我最近开始调查Dataflow的新项目(很棒的东西,到目前为止给它留下了深刻印象!)但我今天早上检查了结算页面进入开发控制台时进行了现实检查。
我上周开始使用Dataflow,使用插件通过Eclipse启动所有管道执行。到目前为止,我已经推出了以下42个职位:
Streaming ----- Nov 17, 2015, 3:20:37 PM ----- 12 min 20 sec
Streaming ----- Nov 17, 2015, 1:45:49 PM ----- 1 hr 36 min
Streaming ----- Nov 17, 2015, 1:25:25 PM ----- 21 min 0 sec
Streaming ----- Nov 17, 2015, 9:30:36 AM ----- 25 min 14 sec
Streaming ----- Nov 16, 2015, 4:44:09 PM ----- 29 min 27 sec
Streaming ----- Nov 16, 2015, 4:40:16 PM ----- 3 min 48 sec
Streaming ----- Nov 16, 2015, 4:37:32 PM ----- 3 min 33 sec
Streaming ----- Nov 16, 2015, 3:58:46 PM ----- 38 min 53 sec
Streaming ----- Nov 16, 2015, 3:46:18 PM ----- 12 min 59 sec
Streaming ----- Nov 16, 2015, 2:05:31 PM ----- 1 hr 41 min
Streaming ----- Nov 15, 2015, 4:28:06 PM ----- 21 hr 35 min
Streaming ----- Nov 13, 2015, 5:09:22 PM ----- 2 days 20 hr
Streaming ----- Nov 13, 2015, 4:30:34 PM ----- 2 days 21 hr
Streaming ----- Nov 13, 2015, 2:52:40 PM ----- 2 days 23 hr
Streaming ----- Nov 13, 2015, 2:42:27 PM ----- 10 min 20 sec
Streaming ----- Nov 13, 2015, 12:21:33 PM ----- 2 hr 19 min
Streaming ----- Nov 13, 2015, 12:12:24 PM ----- 9 min 24 sec
Streaming ----- Nov 13, 2015, 11:55:30 AM ----- 17 min 54 sec
Streaming ----- Nov 13, 2015, 11:51:49 AM ----- 4 min 28 sec
Streaming ----- Nov 13, 2015, 11:35:06 AM ----- 14 min 36 sec
Streaming ----- Nov 13, 2015, 11:32:51 AM ----- 3 min 2 sec
Streaming ----- Nov 13, 2015, 11:20:53 AM ----- 12 min 8 sec
Streaming ----- Nov 12, 2015, 2:11:08 PM ----- 20 hr 48 min
Streaming ----- Nov 12, 2015, 2:07:59 PM ----- 6 min 52 sec
Streaming ----- Nov 12, 2015, 1:24:33 PM ----- 50 min 15 sec
Streaming ----- Nov 12, 2015, 12:46:15 PM ----- 1 hr 28 min
Streaming ----- Nov 12, 2015, 12:43:59 PM ----- 1 hr 30 min
Streaming ----- Nov 12, 2015, 12:41:17 PM ----- 1 hr 33 min
Streaming ----- Nov 12, 2015, 12:36:44 PM ----- 5 min 32 sec
Streaming ----- Nov 12, 2015, 12:03:06 PM ----- 34 min 23 sec
Streaming ----- Nov 12, 2015, 11:55:00 AM ----- 8 min 55 sec
Streaming ----- Nov 12, 2015, 11:23:38 AM ----- 31 min 47 sec
Streaming ----- Nov 12, 2015, 11:07:25 AM ----- 16 min 30 sec
Streaming ----- Nov 12, 2015, 9:54:50 AM ----- 1 hr 11 min
Streaming ----- Nov 11, 2015, 5:10:36 PM ----- 16 hr 44 min
Streaming ----- Nov 11, 2015, 4:57:15 PM ----- 13 min 52 sec
Streaming ----- Nov 11, 2015, 4:48:52 PM ----- 3 min 59 sec
Streaming ----- Nov 11, 2015, 4:41:16 PM ----- 11 min 49 sec
Streaming ----- Nov 11, 2015, 4:32:01 PM ----- 21 min 6 sec
Batch ----- Nov 10, 2015, 3:36:09 PM ----- 1 min 37 sec
Batch ----- Nov 10, 2015, 2:41:28 PM ----- 1 min 48 sec
Batch ----- Nov 10, 2015, 2:37:17 PM ----- 1 min 39 sec
这只是用少量数据进行测试,所以没有什么比从PubSub获取一些元素以了解SDK和环境如何工作更疯狂了。
Google Compute Dataflow Stream Processing VM running on Standard Intel N1 4 VCPU 51,192 Minutes $140.78
Google Compute Standard Intel N1 4 VCPU running in NA 51,192 Minutes $170.64
(为了简化起见,我将忽略每次持续时间不到2分钟的3个批处理作业,它们与以下内容并不相关。)
从这一切来看,有几个问题:
1)我是否遗漏了经过时间的事情? 51 192分钟是853.2小时,远远超过我所有工作执行时间的总和。我确实知道运行的实例至少需要10分钟,但即便如此,我仍然远离51 192分钟。考虑到持续时间,853.2小时x 11 GCEU x 0.015 $ / GCEU /小时= 140.78 $,这与计费声明一致,但我想更好地了解如何计算总持续时间。编辑:51 192分钟约为我所有工作执行总和的3倍。这个因素是3与我配置的3名工人有关吗?
2)是否可以配置管道使用的实例类型?对于我正在进行的那种测试,使用n1-standard-4实例对于我试图做的事情来说真是太过分了。这可以在Eclipse插件或控制台中配置吗?编辑:找到这个答案
3)我以前从未真正注意到每次我开始工作时都有3名工人开始工作。我从未真正配置任何与之相关的内容。我想这是在Eclipse中创建运行配置时默认的工作人员数量?编辑:找到答案
答案 0 :(得分:6)
感谢您尝试使用Dataflow - 我们很高兴您喜欢它!
--workerMachineType
选项,如Setting Other Cloud Pipeline Options。--numWorkers
明确指定,但这会阻止autoscaling根据需要调整工作人员数量。如此处所述,您可以使用--maxNumWorkers
来限制上限,同时允许自动缩放来调整实际的工作人数。您可能希望使用本地运行器在开发期间在计算机上执行管道。听起来您正在测试的数据量足够小,以至于您不需要在服务上运行的规模。您可以使用PubSubIO
创建一个有限的来源,通过调用maxNumRecords或maxReadTime与本地跑步者合作。