在HDFS中走一个目录结构的最佳方法是什么?无论如何在Pig中这样做?
我的理由是因为我有一个HDFS目录树,其中包含多个子目录和许多不同的文档类型,如xls,doc,docx,html,rtf等。
我想以某种方式处理这些二进制/富文本文档并从文档中提取文本,最终以hive输出记录结束。我正在寻找apache tika这样做,我有一个简单的java命令行程序,似乎没有问题。我打算将这个命令行程序转换为Hive或Pig UDF,以便在每个感兴趣的文件上调用以进行文本提取....但是,拼图的最后一个部分是走实际的目录结构。
我已经谷歌为“猪步行目录”,“级联步行目录”(虽然似乎cascalog不支持我的版本的hadoop)等等。
此时,除非我遇到更好的选项,否则我将执行hadoop fs -ls -R /all_documents
并将其加载到配置单元中的表中,以便在事后通过UDF进行处理。
似乎应该有一种更优雅的方式来走一棵树吗?