解析路径字符串以使用Hive查找所有祖先

时间:2012-12-08 20:47:46

标签: hadoop hive apache-pig

给定包含路径和其他一些列的输入文件:

\aa\bb\cc         ... 
\aa\bb\cc\dd\ee   ...
\xx\yy\zz         ...

我正在寻找HiveQL中的方法来分解包含所有祖先路径的不同列表的路径。对于上面的示例,结果应为:

\aa
\aa\bb
\aa\bb\cc
\aa\bb\cc\dd
\aa\bb\cc\dd\ee
\xx
\xx\yy
\xx\yy\zz

有没有办法在Hive中做到这一点而不诉诸自定义Java UDF?

如果没有,猪怎么样?

1 个答案:

答案 0 :(得分:0)

我认为这更像是一种mapreduce类型的问题,而不是数据库问题。它很好地使用了java字符串操作和循环。