应用错误收集

时间：2018-07-26 09:19:14

标签： java aws-sdk

我正在尝试使用spark + hadoop-aws从IDC上传到AWS S3。

由于IDC中的服务器带宽有限，并且与我们的生产网络服务器共享，因此我想限制（限制）带宽上传。

如何使用hadoop-aws限制上传带宽？

答案 0 :(得分：1)

如果您使用distcp，则可以设置每个工作程序的最大带宽，设置最大工作程序数，并且峰值带宽超出该范围。

如果是FWIW，这是我的CloudCP应用；在Spark中执行此操作的示例。我认为要节流，您需要限制每个文件的上传速度，还可能需要进行一些全局节流，这将是一项相当复杂的工作：您需要每位执行上传操作的工作人员来节流，节省时间和每次上传的带宽，并使用它们来调整下一个。

第一个起点是org.apache.hadoop.fs.FileUtil.copy()的带宽限制版本，以限制上传速率；管理#of工人，您将有所控制。