Question

我一直在使用pandas创建一个.csv文件来连接到Tableau。如果可能的话，我想纯粹在Tableau中这样做，所以我可以将每日更新外包给同事而无需教他python / pandas。

文件A：每月1.2密码行，每行代表与客户的交互，它有以下列，我将它们合并在一起以获得唯一值（这是不完美的，因为有时会有多行具有不同的时间戳相同的交互 - 我通常会在这三个字段组合上删除重复项（countd（Date + PersonID + CustomerID））：

Date | PersonID | CustomerID

文件B：每月300k行。这表示PersonID与CustomerID交互时是否存在问题，它们会与另一个人联系。我还创建了一个（Date + PersonID + CustomerID）字段来加入文件A.

Date | PersonID | CustomerID | HelperID

文件C：每月200k行。这是文件C的子集，具有一些不同的信息，但它没有PersonID。我通常做一个（Date + CustomerID），然后查找文件A中的PersonID是谁以及该信息。

日期|客户ID | HelperID

最后，我有一个整体文件（outerjoins），然后是一个较小的文件，其中有关于相同交互的直接匹配，我可以说这个PersonID与此CustomerID交互，并且在此日期关于某个问题需要来自此HelperID的帮助

如何直接在Tableau中处理此问题？我应该单独加载所有三个文件并在CustomerID上混合吗？我应该在每个文件上创建唯一的连接字段然后进行连接吗？它并不完美，因为没有索引或密钥直接链接这些文件1到1.我害怕做左联接和膨胀数字（我注意到有时会有重复，我不知道如何在我加入Tableau时解决它问题

Answer 1

联接比混合更灵活，更高效，所以如果你有选择，可以选择加入。

为了能够使用联接（或自定义SQL），数据需要位于同一Excel电子表格中的（可能是多个）选项卡或数据库中的表中。可以从CSV加载。

混合的主要用例是当您需要组合从不同数据源提取的信息时 - 例如将Oracle数据库中的数据与电子表格中的其他数据进行比较。

在Tableau 9之前，混合也是用于组合从同一数据库中提取的信息的少数几种方法之一，但使用以不同详细程度返回信息的查询 - 例如将各个商店位置的指标与指标进行比较封闭区域。

Tableau 9引入了详细程度（LOD）计算，它比数据混合更好地处理该用例。