我正在设置一个使用者来读取kafka消息,将它们分批聚合,然后使用write_to_dataset
库中的pyarrow
方法将结果数据存储在S3上的分区镶木文件中。
问题是我不知道如何检查文件是否已成功上传到S3。如果没有,我想重试该操作,直到成功。
我在method's source code中看到,它通过将guid与“ .parquet”字符串连接来创建文件名。
outfile = guid() + '.parquet'
我可以在知道对象名称的情况下检查S3上是否存在对象,但是我如何获得它呢?是否有办法以某种方式重载方法,以便它以字符串形式返回对象名称,以进行后续运行状况检查?还是有更好的方法来做到这一点而不干扰源代码?