TensorFlow的ParameterServerStrategy何时比其MultiWorkerMirroredStrategy更可取?

时间:2020-08-12 10:19:41

标签: tensorflow tensorflow2.0 distributed-computing

在跨多个服务器和GPU训练神经网络时,我无法想到Options +FollowSymLinks -Indexes -MultiViews RewriteEngine On # redirect to www.* RewriteCond %{HTTP_HOST} ^example\.com$ [NC] RewriteRule ^ http://www.%{HTTP_HOST}%{REQUEST_URI} [R=301,L,NE] # external profile.php?id=$id to /$id RewriteCond %{THE_REQUEST} /profile\.php\?id=([\w-]+)\s [NC] RewriteRule ^ /%1? [R=301,L] # only allow rewriting to paths that don't exist RewriteCond %{REQUEST_FILENAME} -d [OR] RewriteCond %{REQUEST_FILENAME} -f RewriteRule ^ - [L] # /listing/$id RewriteRule ^listing/([\w-]+)/?$ listing.php?id=$1 [L,QSA,NC] # no php extension RewriteCond %{REQUEST_FILENAME}.php -f RewriteRule ^(.+?)/?$ $1.php [L] # /$username RewriteRule ^([\w-]+)/?$ profile.php?id=$1 [L,QSA] 胜过ParameterServerStrategy的情况。

MultiWorkerMirroredStrategy的主要用例是什么?为什么比使用ParameterServerStrategy更好?

1 个答案:

答案 0 :(得分:3)

  • MultiWorkerMirroredStrategy用于在多个工作人员之间进行同步分布式培训,每个工作人员可以具有多个GPU

  • ParameterServerStrategy:支持参数服务器。可用于多GPU同步本地训练或异步多机训练。

主要区别之一是ParameterServerStrategy可用于异步训练,而MultiWorkerMirroredStrategy用于同步分布式训练。在MultiWorkerMirroredStrategy中,模型中所有变量的副本将保留在所有工作人员的每个设备上,并且需要一种通信方法来使所有变量保持同步。相反,在ParameterServerStrategy中,模型的每个变量都放在一个参数服务器上。

这很重要,因为:

  • 在同步培训中,所有工作人员在培训时期和步骤方面保持同步,其他工作人员将需要等待失败或被抢占的工作人员重新启动才能继续。如果失败或抢占的工作程序由于某种原因而没有重新启动,您的工作程序将继续等待。

  • 相比之下,在ParameterServerStrategy中,每个工作程序独立运行相同的代码,但是参数服务器运行标准服务器。这意味着尽管每个工作人员将在所有GPU上同步计算单个渐变更新,但工作人员之间的更新将异步进行。仅在第一个副本上发生的操作(例如增加全局步长)将在每个工作程序的第一个副本上发生。因此,与MultiWorkerMirroredStrategy不同,不同的工作人员不会彼此等待。

我想问题是,您是否期望工作人员失败,并且在MultiWorkerMirroredStrategy时重新启动工作人员的延迟会减慢培训速度吗?如果真是这样,那么ParameterServerStrategy可能更好。

编辑:对评论中的问题的回答:

因此,PSS的唯一优势是它具有更好的抗 比MWMS失败的工人?

不完全是-即使工作人员不会在MWMS中失败,由于工作人员仍需要保持同步,因此可能会出现网络瓶颈。

如果是这样,那么我想这只会在对许多人进行训练时才有用 工人(例如20个或更多),否则工人将 训练过程中的失败率很低(可以通过定期保存来避免 快照)。

也许不是,取决于情况。也许在您的情况下,失败的可能性很低。在其他人的情况下,可能会更高。对于相同数量的工人,工作时间越长,在工作中间发生失败的可能性就越大。为了进一步说明(通过一个过于简单的示例),如果我拥有相同数量的节点,但是它们速度较慢,则它们可能需要更长的时间才能完成工作,因此,在此期间发生任何类型的中断/故障的可能性更大工作。

(并且可以通过保存常规快照来避免这种情况。)

不知道我的意思是什么-如果工作人员失败了,并且保存了快照,那么您就不会丢失数据。但是工作人员仍然需要重新启动。在故障和重新启动之间,可能会等待其他工人。

I / O饱和度可能不会带来好处吗?如果更新是 异步,I / O会在时间上更分散,对吗?但是也许 使用更多I / O会抵消这种好处吗?您可以...吗 请详细说明一下吗?

我将首先尝试从概念上回答它。

  • 我想说的是尝试从另一个角度看待它-在同步操作中,您正在等待其他事情完成,并且您可能会无所事事,直到得到满足您需要的东西为止。 与异步操作相反,您可以做自己的工作,而在需要更多工作时,您可以要求它。

  • 关于同步操作还是异步操作没有更好的硬性规定。这要视情况而定。

我现在将尝试从优化的角度来回答它:

I / O饱和度可能不会带来好处吗?如果更新是 异步,I / O会在时间上更分散,对吗?但是也许 使用更多I / O会抵消这种好处吗?您可以...吗 请详细说明一下吗?

在分布式系统中,您的瓶颈可能是CPU / GPU,磁盘或网络。如今,网络确实非常快,在某些情况下还比磁盘快。根据您的工作人员配置,CPU / GPU可能会成为瓶颈。因此,这实际上取决于您的硬件和网络的配置。

因此,我将进行一些性能测试,以确定系统瓶颈所在的位置,并针对您的特定问题进行优化。

编辑:其他后续问题:

最后一件事:根据您的经验,在什么用例中使用了PSS?一世 意思是,PSS和MWMS显然都可用于大型数据集(或 否则一台机器就足够了),但是模型呢?将 PSS适用于较大型号吗?根据您的经验,MWMS还是更多 经常使用?

我认为成本和要解决的问题类型可能会影响选择。例如,AWS和GCP都提供“现货实例” /“可替代实例”,它们是打折的服务器,可以随时拿走。在这种情况下,使用PSS可能很有意义-即使发生机器故障的可能性很小,由于实例是“现场实例”,因此实例可能会被带走而无需事先通知。如果使用PSS,则服务器消失对性能的影响可能不如使用MWMS时大。 如果您使用的是专用实例,则这些实例是专用于您的,不会被删除-唯一的中断风险是计算机故障。在这种情况下,如果您可以利用性能优化或插件体系结构,则MWMS可能会更具吸引力。