我一直在使用pandas创建一个.csv文件来连接到Tableau。如果可能的话,我想纯粹在Tableau中这样做,所以我可以将每日更新外包给同事而无需教他python / pandas。
文件A:每月1.2密码行,每行代表与客户的交互,它有以下列,我将它们合并在一起以获得唯一值(这是不完美的,因为有时会有多行具有不同的时间戳相同的交互 - 我通常会在这三个字段组合上删除重复项(countd(Date + PersonID + CustomerID)):
Date | PersonID | CustomerID
文件B:每月300k行。这表示PersonID与CustomerID交互时是否存在问题,它们会与另一个人联系。我还创建了一个(Date + PersonID + CustomerID)字段来加入文件A.
Date | PersonID | CustomerID | HelperID
文件C:每月200k行。这是文件C的子集,具有一些不同的信息,但它没有PersonID。我通常做一个(Date + CustomerID),然后查找文件A中的PersonID是谁以及该信息。
日期|客户ID | HelperID
最后,我有一个整体文件(outerjoins),然后是一个较小的文件,其中有关于相同交互的直接匹配,我可以说这个PersonID与此CustomerID交互,并且在此日期关于某个问题需要来自此HelperID的帮助
如何直接在Tableau中处理此问题?我应该单独加载所有三个文件并在CustomerID上混合吗?我应该在每个文件上创建唯一的连接字段然后进行连接吗?它并不完美,因为没有索引或密钥直接链接这些文件1到1.我害怕做左联接和膨胀数字(我注意到有时会有重复,我不知道如何在我加入Tableau时解决它问题
答案 0 :(得分:1)
联接比混合更灵活,更高效,所以如果你有选择,可以选择加入。
为了能够使用联接(或自定义SQL),数据需要位于同一Excel电子表格中的(可能是多个)选项卡或数据库中的表中。可以从CSV加载。
混合的主要用例是当您需要组合从不同数据源提取的信息时 - 例如将Oracle数据库中的数据与电子表格中的其他数据进行比较。
在Tableau 9之前,混合也是用于组合从同一数据库中提取的信息的少数几种方法之一,但使用以不同详细程度返回信息的查询 - 例如将各个商店位置的指标与指标进行比较封闭区域。
Tableau 9引入了详细程度(LOD)计算,它比数据混合更好地处理该用例。