HDFS将大文件存储为一系列数据块(通常具有固定大小,如64/128/256/512 MB)。假设您有1GB文件,块大小为256MB - HDFS将此文件表示为4个块。 Name节点将跟踪哪些数据节点具有这些块的副本(或副本)。
T-Files是一种文件格式,包含键/值对。 Hadoop将使用HDFS中的一个或多个数据块存储T-File(取决于T-File的大小和定义的块大小 - 系统默认或特定于文件)。
总之,您可以将任何文件格式存储在HDFS中,它只会被分块到固定大小的块中,在整个群集中分布和复制。