我正在尝试将DynamoDB表中存储的产品评级数据转移到一个csv文件,该文件可以由部署在AWS Sagemaker上的推荐模型进行处理。
我正在使用AWS Glue将数据转换为ML模型可以对其进行处理以进行训练的.csv文件,问题是,每次对整个数据库表进行转换时,都会创建重复数据并降低处理速度。< / p>
我找到了解决重复数据问题的方法,方法是在执行ETL作业之前删除旧的s3对象,但感觉像是暂时的 错误修复。
我想做的是在dyanmodb表中收集新数据。 ETL作业每天或每周收集一次新数据,如果在指定期间内有新数据,则将新数据添加到s3存储桶中,并对模型进行重新训练。
答案 0 :(得分:0)
如果您仅关注新记录,而不必担心对旧记录的更新,则