应用错误收集

这取决于您的文件大小，群集参数和处理方法。

如果文本文件的大小与HDFS块大小相当（即块大小= 256 MB，文件大小= 200 MB），则按原样加载它们是有意义的。

如果你的文本文件非常小，那么就会有典型的HDFS＆amp;小文件问题 - 每个文件将占用1个hdfs块（非物理），因此NameNode（处理元数据）将在管理大量块时遭受一些开销。要解决此问题，您可以将文件合并为单个文件，使用hadoop存档（HAR）或某些自定义文件格式（例如，序列文件）。

如果使用自定义格式，则必须进行额外的处理工作 - 需要使用自定义输入格式。

在我看来，100对于显着影响NameNode性能并不是那么多，因此两种选择似乎都是可行的。