Tableau Desktop的大型CSV文件

时间:2018-09-24 10:36:26

标签: amazon-redshift tableau tableau-server

我有一个100GB的CSV文件(2亿行X 60列),用于通过提取在Tableau Desktop中创建仪表板。我一直遇到性能问题,当我选择/取消选择任何维度过滤器时,刷新仪表板大约需要2分钟。使用Tableau Server可以解决此问题吗?如果是,我应该配置多少个节点,以及每个节点应配置什么?

缓存设置是否还会有问题?

我还考虑将这些数据放入Redshift之类的列式数据库中,然后使用实时连接,以便使用Redshift查询引擎代替Tableau。对于这种小型数据集来说,这是一个过大的杀伤力吗?

1 个答案:

答案 0 :(得分:3)

Redshift或Athena可以很好地解决此问题。

Redshift易于设置,每个节点每月的费用约为250美元。您需要调整redshift表以获得合理的性能。

AWS Athena可能是以合理的价格获得良好性能的好方法

简单的雅典娜解决方案:

  1. gzip您的CSV文件,将其拆分为大约10MB的块
  2. 将其上传到s3存储桶
  3. 在那个水桶上跑aws胶履带式爬虫
  4. 将您的tableau桌面指向现在存在的雅典娜表。

假设您的压缩文件为25GB,每个查询的费用为0.13美元,而其他费用却很少。

如果这太多了(因为您要运行很多查询),则可以通过以下方式降低成本并提高性能

  • 将数据分区到s3文件夹中
  • 将数据转换为拼花格式