如何最好地构建具有“多个类别”的画面的csv数据?

时间:2015-12-19 06:29:43

标签: tableau

我有一组100个“学生记录”,我希望每个“favorite_food_type”和“favorite_food”都有复选框,无论选中哪个都会过滤“条形图”,该条形图计算包含该特定“favorite_food”的报告数量“type”和“favorite_food”架构可以是:

名 favorite_food_type(例如蔬菜) favorite_food(例如香蕉)

我希望在仪表板中能够通过复选框选择“给我所有COUNT OF DISTINCT学生用banana_food的香蕉,苹果,梨”并过滤所有记录的图表。我的问题是单个学生记录,也许一个学生喜欢香蕉和苹果。我如何最好地捕获它?我应该:

案例A:重复记录(这会捕获两个不同的“favorite_food”,但现在我必须弄清楚有多少学生(这是一个学生) NAME,FAVORITE_FOOD_TYPE,FRUIT 查理,水果,苹果 查理,水果,梨

案例B:单一记录(这会捕获两个不同的“favorite_food”,但有没有办法从分隔符中挑选出来?) NAME,FAVORITE_FOOD_TYPE,FRUITS 查理,水果,苹果#Pear

案例C:每个水果的列(这样每个学生捕获一条记录,但每个水果需要一个柱子,很多都是假的) NAME,FAVORITE_FOOD_TYPE,APPLE,BANANA,PINEAPPLE,PEAR Charlie,Fruit,TRUE,FALSE,TRUE,FALSE

我想尽可能简单地做到这一点。

1 个答案:

答案 0 :(得分:1)

尽可能避免案例B 。重复信息几乎总是通过重复行来处理 - 不是通过将多个值塞入单个表格单元格,也不是通过创建多个列,例如Favorite_1和Favorite_2

如果在字段中提供具有多个值的数据,Tableau确实具有可用于将单个字段拆分为其组成部分以形成多个字段的功能和数据连接功能。这适用于固定数量的不同类型的信息 - 比如将城市,州字段拆分为城市和州的单独字段。

尽可能避免案例C 。该交叉表结构使得难以分析数据并进行有用的可视化。每个值都被视为一个单独的字段。

如果以交叉表格式提供数据,Tableau允许您将数据连接窗格中的数据透视为重塑为具有较少列和多行的表单。

案例A通常是最好的方法。您可以通过将重复信息分解为分离的表来进一步简化它 - 一个称为规范化的过程。然后,您可以使用联接重新组合表格,并在需要时查看重复信息。

您的示例的规范化方法将有两个表(或excel中的选项卡)。第一个表每个学生只有一行,有2列:name和favorite_food_type。第二个表每个学生/最喜欢的食物组合有一行,有2列:name和favorite_food。现在每个学生都可以拥有您喜欢的最喜欢的食物,或者根本没有。由于两个列都有一个名称字段,因此这将是用于在需要时连接(组合)表的键。

鉴于表设计,您可以在Tableau中拥有2个数据源。第一个只是指向学生表,可用于创建仅涉及学生和favorite_food_types的可视化。第二个数据源将使用(左)联接从两个表中读取,并可用于查看喜欢的食物。使用第二个数据源时,您必须小心报告有关学生姓名和喜欢的食物类型的信息,以便考虑重复的信息。因此,尽可能使用第一个数据源。最后,您可以在仪表板上放置两种可视化,并使用过滤器和突出显示操作,尽管有两个来源,但仍能实现无缝交互 - 充分利用两个世界。