我们有一个databricks笔记本,该笔记本通过ADFv2按需群集运行,该群集通过使用以下python代码将字节写入文件来完成:
f = open(location, 'wb')
f.write(my_byte_data)
f.close()
我们正在观察的是,当文件特别大(超过75mb +)时,它们在f.close()实际完成之前就取消了配置,正在运行的群集!
这当然意味着我们得到了损坏的/不完整的输出文件
我们正在写blob存储,而不是使用Python Azure Storage SDK,而是直接挂载,我想可能是问题所在?
我们目前可以解决此问题的唯一方法是在工作结束时添加等待时间
import time
time.sleep(60)
有什么想法吗?