我每个人都很明白。但是主要区别是什么?
两者是否都将数据保留在磁盘上?
如果我将非分布式系统安装到databricks DBFS上怎么办?
答案 0 :(得分:1)
我认为在HDFS中,数据保留在本地服务器上,但是在DBFS中,它们使用S3作为存储,基本上将存储从计算中删除了。 WASB(Windows Azure存储Blob)执行相同的操作,并将存储转移到blob。请阅读this。
这就是它的意思 “ Databricks文件系统(DBFS)是安装在Databricks群集上的分布式文件系统。DBFS中的文件保留在S3上,因此即使终止群集也不会丢失数据。”