我注意到在那种情况下这些文件的大小是不变的(在我的压缩选择的情况下是128字节)。是否有API或方法来检查文件是否没有任何内容?
答案 0 :(得分:2)
除了打开文件并尝试获取第一个键/值对之外,没有。原因是没有标题详细说明每个“块”中的记录数(主要是因为数据被流出,所以当写入标题时,没有关键数量的先验知识)。
有一些关于如何避免创建这些“空”文件的先前线程,但唯一真正的做法是创建自己的OutputFormat和OutputComitter,它跟踪输出的值的数量,而不是如果没有写入数据,则提交文件。
答案 1 :(得分:0)
在HDFS或S3中打开并检查序列文件的一个简单解决方案
hadoop fs -text path_of_sequence_file