使用Apache Spark代理密钥

时间:2018-11-13 11:15:55

标签: apache-spark spark-streaming data-warehouse

我们有一个基于事件的框架,在该框架中,我们使用Kafka和Spark流技术,最后将数据持久存储在数据库中。我来自数据仓库世界。我想使用为我们正在使用的某些尺寸数据生成的代理键。通常在Spark World中如何实现?代理关键是现代大数据架构中的一个相关主题吗?在从数据仓库到大数据架构的转变以及如何在大数据架构中进行数据模型方面,我在哪里可以获得很好的信息?

1 个答案:

答案 0 :(得分:0)

尽管代理键在“现代大数据体系结构”中并不常见,但仍然存在用例。代理键仍然可以简化对商业智能用例(例如,尺寸变化缓慢)的查询。如果要将具有业务用户和工具的现有数据仓库体系结构迁移到新的大数据管道体系结构,同时尝试维护与现有系统使用代理密钥相同的业务工具和流程,则这一点尤为重要。

这是否一个好主意取决于您的用例和实际架构。

我不为开发人员使用代理密钥。仍然有价值,但不值得替代密钥管道的复杂性。通常,可以在查询时动态地以足够的处理能力/更长的查询来动态完成所有这些逻辑,而不用持久保存代理键。

代理键有很多用途。也许我还没有涵盖您的用例。如果是这样,请告诉我们更多有关使用代理密钥的目标。我很想知道其他人也做了什么。