我正在尝试使用spark + hadoop-aws从IDC上传到AWS S3。
由于IDC中的服务器带宽有限,并且与我们的生产网络服务器共享,因此我想限制(限制)带宽上传。
如何使用hadoop-aws限制上传带宽?
答案 0 :(得分:1)
如果您使用distcp,则可以设置每个工作程序的最大带宽,设置最大工作程序数,并且峰值带宽超出该范围。
如果是FWIW,这是我的CloudCP应用;在Spark中执行此操作的示例。我认为要节流,您需要限制每个文件的上传速度,还可能需要进行一些全局节流,这将是一项相当复杂的工作:您需要每位执行上传操作的工作人员来节流,节省时间和每次上传的带宽,并使用它们来调整下一个。
第一个起点是org.apache.hadoop.fs.FileUtil.copy()
的带宽限制版本,以限制上传速率;管理#of工人,您将有所控制。