预处理仪表板大数据的工具?

时间:2015-03-24 17:41:52

标签: open-source bigdata

我有一个复杂的数据集,其中超过16M行来自制药行业。关于数据,它保存在一个包含400多个关系表的sql server中。

数据有多个级别的层次结构,如省,市,邮政编码,人员和抗原措施等。

我想创建许多仪表板以观察变化和&趋势正在发生。为此,我可以使用Pentaho,R(有光泽)或Tableau。但问题是数据是如此巨大,用仪表板软件处理它需要很长时间。我可以选择制作立方体并将其连接到仪表板。

我的问题是,是否有任何其他解决方案可以使用而不是制作立方体?我不想经历制造和制造麻烦的麻烦。保持一个立方体。

我想使用一个软件来指定表之间的关系,因此聚合/合并可以顺利进行,并输出可以连接到仪表板的已处理表。我听说Alteryx是一款可以为你做的软件(我自己没试过,而且价格昂贵!)。

我理解这项任务需要两个或更多软件/工具。请分享您的意见和建议经验。请提及您使用的工具,数据大小,整个系统的速度/效率以及其他必要的详细信息。

1 个答案:

答案 0 :(得分:0)

这很大程度上取决于数据集的大小(不仅仅是行数)以及SQL服务器的速度。

我已将带有> 20米行(大小> 4GB)的数据集直接加载到Tableau中(尽管这是在64位Windows计算机或具有大于8GB RAM的Mac上)。它们运作良好。

如果数据量很大(这意味着可能是10 GB的磁盘空间),那么最好将Tableau直接连接到SQL服务器并让服务器完成繁重的工作。这也很好。我在(快速且功能强大的)SQL服务器上拥有数十亿行数据集,如果SQL服务器针对快速分析而非事务处理进行了优化,那么它也可以以合理的速度运行。

如果您的本地服务器功率或容量有限,那么我还建议将您的数据放到Google的BigQuery(或亚马逊的Redshift)之类,因为这些设置非常便宜并且提供惊人的分析能力。 Tableau具有两者的连接器,因此即使使用怪物数据集,您也可以获得交互式速度。我有一个500米行和大约100GB数据的测试数据集,即使我直接从Tableau驱动它,我也可以在15-30秒内获得大多数查询的典型查询响应。