下载apache_beam.io.gcp.gcsio.GcsBufferedReader对象的位置

时间:2017-08-28 17:27:32

标签: python google-cloud-dataflow apache-beam

我正在向工作人员推送视频以获取云数据流管道。我被建议直接使用beam来管理我的对象。我无法理解下载对象的最佳做法。我可以看到班级

Apache Beam IO GCP所以可以像这样使用它:

def read_file(element,local_path):
  with beam.io.gcp.gcsio.GcsIO().open(element, 'r') as f:

其中element是从前一个beam步骤读取的gcs路径。

检查可用的方法,下载器看起来像。

f.downloader
Download with 57507840/57507840 bytes transferred from url https://www.googleapis.com/storage/v1/b/api-project-773889352370-testing/o/Clips%2F00011.MTS?generation=1493431837327161&alt=media

此消息使其看起来已经下载,它具有正确的文件大小(57mb)。但是它去哪儿了?我想传递一个变量(local_path),以便后续进程可以处理该对象。该类似乎不接受路径目标,它不在当前工作目录,/ tmp /或downloads文件夹中。我在部署之前在OSX上本地测试。

我是否正确使用此工具?我知道流式视频字节可能更适合大型视频,一旦我理解了基本功能,我们就会明白这一点。我将打开一个单独的问题,用于流式传输到内存(名为pipe?)以供opencv读取。

0 个答案:

没有答案