使用AWS S3存储桶流式传输数据砖

时间:2020-09-29 11:29:33

标签: python amazon-s3 databricks

以下是一些与AWS S3存储桶中的Databricks流相关的查询。

  1. 在从S3存储桶流式传输读写文件(.csv)时是否可以获得往返执行时间?如有可能,请详细说明。

  2. 如何通过调用带有传递参数的函数在流中使用现有的python笔记本?

  3. 在流式读取使用readStream(.csv)的文件时如何获取文件(.csv)的路径?

1 个答案:

答案 0 :(得分:0)

  1. 查看流媒体指标中的批次持续时间。
  2. 将功能放在单独的笔记本中,并在流开始之前在该笔记本上调用%run,然后即可使用它们。
  3. 使用函数input_file_name检索文件名。