hadoop - pig - 将hdfs目录和tika-parse文件转移到hive中？

在HDFS中走一个目录结构的最佳方法是什么？无论如何在Pig中这样做？

我的理由是因为我有一个HDFS目录树，其中包含多个子目录和许多不同的文档类型，如xls，doc，docx，html，rtf等。

我想以某种方式处理这些二进制/富文本文档并从文档中提取文本，最终以hive输出记录结束。我正在寻找apache tika这样做，我有一个简单的java命令行程序，似乎没有问题。我打算将这个命令行程序转换为Hive或Pig UDF，以便在每个感兴趣的文件上调用以进行文本提取....但是，拼图的最后一个部分是走实际的目录结构。

我已经谷歌为“猪步行目录”，“级联步行目录”（虽然似乎cascalog不支持我的版本的hadoop）等等。

此时，除非我遇到更好的选项，否则我将执行hadoop fs -ls -R /all_documents并将其加载到配置单元中的表中，以便在事后通过UDF进行处理。

似乎应该有一种更优雅的方式来走一棵树吗？

pig - 将hdfs目录和tika-parse文件转移到hive中？

0 个答案: