亚马逊EMR JSON

时间:2012-08-01 07:52:20

标签: hadoop amazon hive emr

我正在使用Amazon EMR Hadoop Hive进行大数据处理。我的日志文件中的当前数据是CSV格式。为了从日志文件中创建表,我编写了regex表达式来解析数据并存储到外部表的不同列中。我知道SerDe可以用来读取JSON格式的数据,这意味着每个日志文件行都可以作为JSON对象。如果我的日志文件采用JSON格式比较CSV格式,是否有任何Hadoop性能优势。

1 个答案:

答案 0 :(得分:0)

如果你可以处理表的输出(你用regexp创建)为什么要进行另一次处理?尽量避免不必要的东西。

我认为这里的主要问题是哪种格式更快阅读。我相信CSV会提供比JSON更好的速度但不接受我的话。 Hadoop真的不在乎。这是他的所有字节数组,一次在内存中。