如何检查hadoop序列文件是否为空

时间:2012-05-18 17:01:53

标签: hadoop hdfs

我注意到在那种情况下这些文件的大小是不变的(在我的压缩选择的情况下是128字节)。是否有API或方法来检查文件是否没有任何内容?

2 个答案:

答案 0 :(得分:2)

除了打开文件并尝试获取第一个键/值对之外,没有。原因是没有标题详细说明每个“块”中的记录数(主要是因为数据被流出,所以当写入标题时,没有关键数量的先验知识)。

有一些关于如何避免创建这些“空”文件的先前线程,但唯一真正的做法是创建自己的OutputFormat和OutputComitter,它跟踪输出的值的数量,而不是如果没有写入数据,则提交文件。

答案 1 :(得分:0)

在HDFS或S3中打开并检查序列文件的一个简单解决方案

hadoop fs -text path_of_sequence_file