当标题值随时间变化时,数据可视化包含数百个AWS计费数据CSV文件

时间:2017-04-27 20:23:03

标签: python amazon-web-services amazon-s3 amazon-dynamodb amazon-redshift

我正在使用AWS S3存储桶中的数百个CSV文件在Tableau中开发数据可视化仪表板,并且每天都会生成新文件。 为了实现这一目标并使流程更快,我将文件加载到AWS Redshift DB中。 CSV文件具有新列,有时以前存在的列将不会出现在传入文件中。为了处理这个问题,我修改了我的代码以读取和比较标题,如果存在新标题,它将改变表格,添加新列。

然而,我面临的问题如下:

  1. CSV文件标题值随时间变化,即如果列的当前值为'cost',则在下个月'cost'列可能不存在,但它已映射到值'Blended Cost'的新列。
  2. 只有当标题位置与表格中的列位置匹配时,Redshift的复制命令才有效。但是,对于这样的动态文件,匹配列位置是不可行的。我正在探索Dynamo DB选项来克服这个问题。
  3. 处理这种情况的最佳方法是什么?任何建议都将受到高度赞赏。

0 个答案:

没有答案