我正在使用Spark将数据加载到HDFS中。数据如何存储在HDFS中?是加密模式吗?是否可以破解HDFS数据?现有数据的安全性如何?
我想详细了解系统的运行方式。
答案 0 :(得分:1)
HDFS是一种分布式文件系统,它支持各种格式,例如纯文本格式的csv,tsv文件。其他格式,例如镶木地板,orc,Json等。
将数据保存在Spark中时,您需要指定格式。
没有任何镶木地板工具都无法读取镶木地板文件,但是spark可以读取它。
HDFS的安全性由Kerberos身份验证控制。您需要显式设置身份验证。
但是用于读取和写入数据的spark的默认格式为-木地板
答案 1 :(得分:0)
HDFS可以存储多种格式的数据,Spark具有读取数据的功能(csv,json,镶木地板等)。回写时,指定您要保存文件的格式。
阅读以下命令中的一些内容将对您有所帮助:
hadoop fs -ls / user / hive / warehouse
hadoop fs -get(直到将文件从hdfs传输到本地文件系统)
hadoop fs -put(这会将文件从本地文件系统放到hdfs)