我正在创建一个结构化的流作业,将其数据存储在databricks增量数据库中。我面临的选择是将检查点位置和来自增量数据库的数据存储在任一位置... 1.正常的dbfs位置,例如“ / delta / mycheckpointlocation”和“ delta / mydatabase” 2.从数据湖(例如“ / mnt / mydatalake / delta / mycheckpointlocation”和“ / mnt / mydatalake / delta / mydatabase”)安装的目录
如果我正确理解,nr1中的数据将保留在blob存储中,而nr2中的数据将存储在数据湖中(假设它已安装在/ mnt / mydatalake上)
要考虑将诸如检查点位置和增量数据库之类的内容存储在1或2中的考虑因素是什么?
答案 0 :(得分:0)
DBFS位置是工作空间的一部分。因此,如果您放下工作区,则会丢失它。 湖是共享的,因此可以连接到许多事物,包括其他Databricks工作区或其他服务(例如ADF)。 对此没有对与错-纯粹的偏好。