循环访问多个文件时如何增加gcsfuse吞吐量?

时间:2019-07-17 19:45:13

标签: google-cloud-platform gcsfuse

我正在处理200,000多个netcdf文件,每个文件为17 MB。它们都位于Google云存储桶中,我正在尝试找到一种使用gcsfuse提高吞吐量的方法。

我正在使用Google云计算引擎虚拟机和gcsfuse访问文件。我研究了gsutil,但在Google Cloud文档中读到“单个I / O流的运行速度几乎与gsutil一样快”。使用gcsfuse NCL脚本将花费8天,这太长了。关于如何提高吞吐量有什么建议吗?谢谢。

1 个答案:

答案 0 :(得分:0)

优化传输性能,您必须考虑:

  1. 在同一区域中找到您的Cloud Storage Bucket和Compute Engine VM实例。
  2. 通过创建具有更多vCPU内核的实例来增加您的Compute Engine VM实例网络带宽​​
  3. 增加persistent disk throughput
  4. 使用gsutil -r并通过-m option to run tasks in parallel甚至可以设置用于通过parallel_thread_count复制文件的线程数
  5. 请在scripting transfer上查看此文档
  6. 使用gcsfuse时,请检查是否具有针对并行传输进行了优化的0.27.0版本。