我有几个大型文件,其中包含指标信息。我将这些文件链接到名册数据库,因此我知道某个员工在某个日期报告了谁(这使我能够跟踪每个经理或每个站点的绩效等)。
我这样做的方法是创建一个名为EmployeeID + Date的RosterID字段(例如:x112x20141022)。因此,如果我在仪表板上的一张纸上进行过滤,它将过滤所有纸张。
问题:我是否使用文件之间的混合(现在大约有8种不同的数据源),左连接,或者我只是使用python / pandas将信息直接添加到原始数据源?我希望twbx文件尽可能快地为最终用户服务。
(我的意思是将信息添加到原始数据实际上是添加了像Manager,Director,Location,Hire Date,Training Class这样的列。这会略微增加文件大小,但会加速Tableau吗?)< / p>
答案 0 :(得分:1)
数据混合(在Tableau中创建不同数据源之间的关系)是性能最差的解决方案。虽然它易于使用,但效率非常低,因为它会在每次计算时虚拟地执行连接。
在连接到数据时在Tableau上执行左连接(我假设您正在使用csv文件)是一个非常好的解决方案,就像在Pandas中创建包含信息的单个表一样。对于最终用户,不应该在性能方面存在任何差异(特别是如果您将数据提取到Tableau中的tde)。在这里,您需要衡量在python / pandas或Tableau提取工具中维护进程是否更容易。我相信使Tableau进行连接更简单。但这是你的电话