hadoop - Hadoop文件的最佳分隔符

每个人肯定都有权衡。这真的取决于你最关心的事情。

逗号 - 如果您关心互操作性。每个工具都适用于CSV。只有当书写系统没有正确地逃脱，或者阅读系统不尊重逃避时，数据中的逗号才是痛苦的。据我所知，Hive可以正确地逃脱。

标签 - 如果您关心互操作性并且期望数据中有逗号但没有标签。您在数据中使用标签的可能性略低，但任何给定工具支持TSV的可能性也会略低。

Ctrl + A-如果您只关心hadoop生态系统功能。这肯定成为事实上的hadoop标准，但hadoop也很容易支持逗号和标签。好处是你通常不必关心逃跑。

最后，我认为这通常是一个折腾，假设你正确逃避（你应该！）。没有最好的做法。如果你发现自己担心这类事情，你可能还想采用更严肃的序列化格式，比如Avro，它在Hadoop世界得到了很好的支持。