应用错误收集

我正在使用AWS S3存储桶中的数百个CSV文件在Tableau中开发数据可视化仪表板，并且每天都会生成新文件。为了实现这一目标并使流程更快，我将文件加载到AWS Redshift DB中。 CSV文件具有新列，有时以前存在的列将不会出现在传入文件中。为了处理这个问题，我修改了我的代码以读取和比较标题，如果存在新标题，它将改变表格，添加新列。

然而，我面临的问题如下：

CSV文件标题值随时间变化，即如果列的当前值为'cost'，则在下个月'cost'列可能不存在，但它已映射到值'Blended Cost'的新列。
只有当标题位置与表格中的列位置匹配时，Redshift的复制命令才有效。但是，对于这样的动态文件，匹配列位置是不可行的。我正在探索Dynamo DB选项来克服这个问题。

处理这种情况的最佳方法是什么？任何建议都将受到高度赞赏。

当标题值随时间变化时，数据可视化包含数百个AWS计费数据CSV文件

0 个答案: