需要使用Map Reduce / Apache Hadoop处理MS Word文档

时间:2015-03-02 02:04:53

标签: hadoop mapreduce

我一直在研究Hadoop / MR项目,该项目需要处理MS word文档并从中生成一些输出。该文件的格式如下 -

  

PARAGRAPH1

     

.......

     

.......

     

PARAGRAPH2

     

.......

     

.......

问题是双管齐下 -

  1. 哪个InputFormat适用于MS word couments,我知道TeXtInputReader不应该在这里工作,如果我错了请纠正我。
  2. 我需要明智地解析文档,而不是行,所以我需要为此编写自定义RecordReader吗?如果是的话,是否有任何指针?
  3. 对此的任何帮助都会非常有用。

0 个答案:

没有答案