HDFS和Databricks DBFS之间的主要区别是什么?

时间:2019-03-27 21:28:33

标签: hadoop hdfs databricks

我每个人都很明白。但是主要区别是什么?

两者是否都将数据保留在磁盘上?

如果我将非分布式系统安装到databricks DBFS上怎么办?

1 个答案:

答案 0 :(得分:1)

我认为在HDFS中,数据保留在本地服务器上,但是在DBFS中,它们使用S3作为存储,基本上将存储从计算中删除了。 WASB(Windows Azure存储Blob)执行相同的操作,并将存储转移到blob。请阅读this

这就是它的意思 “ Databricks文件系统(DBFS)是安装在Databricks群集上的分布式文件系统。DBFS中的文件保留在S3上,因此即使终止群集也不会丢失数据。”