id col1 col2 ... coln
---------------------
foo barA barB ...
foo barD barX
boo barA barC
foo barC barC
我想把它组合成'折叠'行,如下所示:
foo barA;barD;barC barB;barX;barC
boo barD barC
目前,源文档是一个hive'table',[这与我想的平面文本文件基本相同] - 我想知道最有效的方法是什么?
编辑:相关的早期问题(对于SQL,唉不是hive)Combine multiple rows into one space separated string
答案 0 :(得分:0)
如果要从mapreduce作业将数据加载到配置单元中,您可以调整该MR以对您进行数据转换,并根据需要将其加载到表中(数组或;分隔,等等) )
如果您希望能够更新/调整数据,那么HIVE可能不是最佳选择。您可能希望查看HBase并执行“聚合”以生成数据,因为您希望将其加载到HBase中。无论何时生成相同的Key / ColumnFamily / Column值,如果它存在,它将覆盖它,以便“更新”该值。我在生产中使用它来生成不断更新的数据。
在任何一种情况下,为了操纵大量数据的结构,您可能希望使用mapreduce作业并让它为您进行重组。