pig - 将hdfs目录和tika-parse文件转移到hive中?

时间:2015-07-21 16:33:51

标签: hadoop hive apache-pig hdfs

在HDFS中走一个目录结构的最佳方法是什么?无论如何在Pig中这样做?

我的理由是因为我有一个HDFS目录树,其中包含多个子目录和许多不同的文档类型,如xls,doc,docx,html,rtf等。

我想以某种方式处理这些二进制/富文本文档并从文档中提取文本,最终以hive输出记录结束。我正在寻找apache tika这样做,我有一个简单的java命令行程序,似乎没有问题。我打算将这个命令行程序转换为Hive或Pig UDF,以便在每个感兴趣的文件上调用以进行文本提取....但是,拼图的最后一个部分是走实际的目录结构。

我已经谷歌为“猪步行目录”,“级联步行目录”(虽然似乎cascalog不支持我的版本的hadoop)等等。

此时,除非我遇到更好的选项,否则我将执行hadoop fs -ls -R /all_documents并将其加载到配置单元中的表中,以便在事后通过UDF进行处理。

似乎应该有一种更优雅的方式来走一棵树吗?

0 个答案:

没有答案