我在Tableau中设计可视化,我的数据在Hive / hadoop中,数据量巨大,
当我尝试设计可视化时,每次尝试从hadoop提取数据时,查询运行速度都非常慢。
所以对于任何可视化,它通常需要4分钟来进行简单的拖放,并且可视化可能有10秒的拖拽,所以我最终花费了大量的时间等待。 我尝试使用数据提取选项,但它永远需要数据提取(38分钟并且仍在继续)
问题: 有没有办法我只能提取1000条记录,所以我可以处理这1000条记录来创建viz,然后在设计完成后切换到Live连接。 我试图查看画面社区的帮助,但到目前为止没有运气
答案 0 :(得分:1)
复制XL中的所有数据并将我的Tableue与XL连接,并在几分钟内完成我的dahsboard,因为XL和hive具有完全相同的字段,我可以用Hive替换xl连接,它只是起作用。它抱怨某些表格中的计算字段,但我想我可以在蜂巢上重做该部分并绕过它。
答案 1 :(得分:0)
一个选项可能是关闭自动更新,因此每次拖放时都不会重新加载数据:
https://onlinehelp.tableau.com/current/pro/desktop/en-us/queries_autoupdates.html
您可以尝试的另一件事是以下内容。在Hive中,您可以创建一个只有几千行的较小版本的表。然后在表上创建一个视图,并在视图中指向Tableau。根据视图设计Viz,然后在完成后重新创建Hive中的视图以指向真实表。这可能会有所帮助,但如果Hive尝试为每次拖放尝试启动地图减少作业,那么它仍然会令人沮丧地缓慢。
根据我使用Tableau的经验,您希望将数据集缩小到可以使用提取选项的大小。任何与Hive实时连接的交互式仪表板都会很慢。但是,如果您可以将数据集聚合到可管理的大小,那么如果执行提取,它可以很好地工作。我不再使用Tableau了,但过去我提取的内容需要花费30-60分钟来刷新并加载数百万行,并且效果很好。