使用spark我已经为客户开发了一个仪表板,其中包含14个表的原始数据库>总行数26M。数据涉及物理用户,包裹,产品和网络用户。 你可以把它想象成一家也有实体店的电子商务公司。
要求是:
我提出的解决方案是合并,重复数据删除,数据透视和重新聚合表格中的所有数据,只存储相关信息,行数减少超过原始数据库的4倍。 / p>
要计算指标,我唯一提出的方法是从DF获取rdd,然后使用聚合函数手动分析(并计算)每个指标每一行。
性能非常差,比如使用8核CPU从简化数据集中获取指标的时间超过一分钟。使用一个用户。
我不是要求代码,而是要求提供文档,示例和知识。我认为我错过了一些东西而且我不知道它是什么。我已经看到很多仪表板几乎立即在更大的数据集上执行查询,我不知道他们是如何做到的(除了计算能力)。
谢谢