我是 Databricks 的新手,有以下疑问 -
Databricks 提出了 3 层存储 Bronze(原始数据)、Silver(干净数据)和 Gold(聚合数据)。很清楚这些存储层的目的是存储什么。但我怀疑这些是如何实际创建或识别的。从 Silver 或 Gold 检索数据时我们如何指定。这些是不同的数据库或不同的格式还是其他什么?
请帮我弄清楚这个概念。
答案 0 :(得分:1)
这些逻辑层:
bronze_df.filter("col1 is not null")
之类的代码并存储结果。如果您在转换中发现错误,或者需要添加额外的检查,则可以从 Bronze 重新生成 Silver 层。 Silver 层通常可供需要行级详细数据的最终用户访问Databricks 通常建议对所有这些层使用 Delta Lake,因为它更容易在层之间以增量方式处理数据,通常使用结构化流。但你不受此限制。我见过很多客户将 Gold 层的结果输出到 Azure SQL 数据库、NoSQL 数据库或其他东西中,从中可以被仅适用于这些系统的应用程序使用。