Hive / Hadoop / Flatfile:什么是组合和连接行的有效方法

时间:2011-05-05 07:56:28

标签: java hadoop hive

id col1 col2 ... coln
---------------------
foo barA barB ...
foo barD barX
boo barA barC
foo barC barC

我想把它组合成'折叠'行,如下所示:

foo barA;barD;barC barB;barX;barC
boo barD barC

目前,源文档是一个hive'table',[这与我想的平面文本文件基本相同] - 我想知道最有效的方法是什么?

编辑:相关的早期问题(对于SQL,唉不是hive)Combine multiple rows into one space separated string

1 个答案:

答案 0 :(得分:0)

如果要从mapreduce作业将数据加载到配置单元中,您可以调整该MR以对您进行数据转换,并根据需要将其加载到表中(数组或;分隔,等等) )

如果您希望能够更新/调整数据,那么HIVE可能不是最佳选择。您可能希望查看HBase并执行“聚合”以生成数据,因为您希望将其加载到HBase中。无论何时生成相同的Key / ColumnFamily / Column值,如果它存在,它将覆盖它,以便“更新”该值。我在生产中使用它来生成不断更新的数据。

在任何一种情况下,为了操纵大量数据的结构,您可能希望使用mapreduce作业并让它为您进行重组。