我有包含大量记录的imapla表(39885593),需要通过Tableau使用impala表创建仪表板。
我尝试以多种方式实现此要求,如下所示
1)从Tableau数据提取中的impala表中提取数据,然后创建仪表板。 2)最初使用数据提取,然后将连接切换到实时连接 3)实时连接
方法1:能够使用数据提取创建仪表板。提供良好的表现。这个应用程序的问题是数据是每天都在增长的事务数据,所以如果我通过这种方法,数据提取将在Tableau Server中占用更多空间。
方法2:使用这种方法我能够有效地设计仪表板但是当我将数据提取的连接切换到实时并发布仪表板时,当我通过Tableau服务器查看仪表板时,也需要花费大量时间来发布仪表板在浏览器中打开仪表板需要更多时间。
方法3:实时连接在设计和发布仪表板时性能非常低。
如果有人遇到过这种要求,请你就此向我提出建议。
由于
答案 0 :(得分:1)
除非您需要对数百万条交易记录进行实时访问,否则我建议使用数据提取(可能的多个提取)
但是将提取的大小减少到支持可视化所需的最小值。您可以添加数据源过滤器,隐藏未使用的字段,汇总数据以在数据提取中聚合到您的视图所需的详细程度。
对于大型数据集,请勿尝试制作仅作为整个数据集副本的单个数据集,制作几个较小的数据集,每个数据集仅支持一个(或一小组)所需的信息。相关观点。想象一个像物化视图一样的提取。
如果视图仅显示100个标记,则尝试在其使用的提取中只有100条记录,即使这些记录是100条记录,也会总结基础数据源中的1亿条信息。
然后,您可以在向下钻取(过滤的)详细信息视图时使用更大的数据提取甚至是实时源,并且仪表板的第一个视图可以快速启动。
这样,交互,刷新和发布可以很快。
要使这种方法起作用,您可能需要习惯在工作簿中拥有多个数据源,即使基于同一个数据库也是如此。并且还使用过滤器操作,参数和计算字段来过滤和链接数据源。
答案 1 :(得分:0)
您说实时连接会降低性能,也许您可以尝试使用自定义SQL查询在Impala中聚合数据,然后再进入Tableau?