我是天蓝色数据砖的新手。我试图将数据从datalake读取到databricks中。我发现主要有两种方法
我有兴趣知道当我们选择在dbfs中安装文件夹时是否存在一些显着的内存消耗。我了解到装入的数据是持久的。因此,我猜测这可能会导致一些内存消耗。我想当我们在dbfs中挂载文件时,有人能解释一下后端的情况吗
答案 0 :(得分:0)
持久性数据问题:
据我基于documentation of dbfs的了解,从挂载点通过dbfs读取的数据不会持久保存:
“写入装载点路径(/ mnt)的数据存储在DBFS根目录之外。即使DBFS根目录是可写的,我们还是建议您将数据存储在已装载的对象存储中,而不是DBDB根目录中。” >
相反,您可以将数据直接写到DBFS(实际上就是一个存储帐户),并且该数据将在集群重新启动之间持久存在。例如,您可以将一些示例数据集直接存储在DBFS中。
Data Lake Gen 1的最佳实践
由于不应该对性能产生任何影响,因此我不知道总体上存在“最佳实践”。根据我的经验,最好记住这两种解决方案对于不知道身份验证方式或身份验证方式的新用户可能会造成混淆。