我正在寻找使用Tableau分析存储在Vertica中的4B记录(1TB数据)的最佳方法。我尝试使用1M记录的提取,它完美地运行。但是不知道如何管理4B记录,因为查询4B记录花了太长时间。
我有以下数据集:
timestamp id url domain keyword nor_word cat_1 cat_2 cat_3
所以在这里我需要创建前10名ID,前10名网址,前10名域名,前10名关键词,前10名nor_word,前10名cat_1,前10名cat_2,前10名cat_3的下降列表,取决于每个字段值的计数单独的工作表并将所有工作表合并到一个仪表板中。
没有主键。此数据集为1个月,因此我想制作全局过滤器开始日期和结束日期以减少查询大小。但是不知道如何创建全局日期过滤器并在仪表板上显示?
答案 0 :(得分:2)
您有两个问题,一个是关于Vertica的问题,另一个是关于Tableau的问题。你应该拆分它们。
关于Vertica,您需要知道Vertica以物理存储中的升序排序顺序存储数据。这意味着,只要您希望获得降序排序,就总是需要额外的步骤。
我建议日期creating a partition,然后以增量模式运行Database Designer(DBD)并将查询用作示例。通过对数据进行分区,Vertica可以在优化期间消除分区。
运行DBD将生成一些更好的优化预测。您应该考虑在需要这些数据的频率与是否值得创建这些额外预测之间进行权衡,因为它会影响您的负载性能。