hadoop:HDFS以哪种格式存储数据

时间:2018-08-10 10:40:38

标签: apache-spark hadoop hdfs

我正在使用Spark将数据加载到HDFS中。数据如何存储在HDFS中?是加密模式吗?是否可以破解HDFS数据?现有数据的安全性如何?

我想详细了解系统的运行方式。

2 个答案:

答案 0 :(得分:1)

HDFS是一种分布式文件系统,它支持各种格式,例如纯文本格式的csv,tsv文件。其他格式,例如镶木地板,orc,Json等。

将数据保存在Spark中时,您需要指定格式。

没有任何镶木地板工具都无法读取镶木地板文件,但是spark可以读取它。

HDFS的安全性由Kerberos身份验证控制。您需要显式设置身份验证。

但是用于读取和写入数据的spark的默认格式为-木地板

答案 1 :(得分:0)

HDFS可以存储多种格式的数据,Spark具有读取数据的功能(csv,json,镶木地板等)。回写时,指定您要保存文件的格式。

阅读以下命令中的一些内容将对您有所帮助:

hadoop fs -ls / user / hive / warehouse

hadoop fs -get(直到将文件从hdfs传输到本地文件系统)

hadoop fs -put(这会将文件从本地文件系统放到hdfs)