应用错误收集

需要使用Map Reduce / Apache Hadoop处理MS Word文档

时间：2015-03-02 02:04:53

标签： hadoop mapreduce

我一直在研究Hadoop / MR项目，该项目需要处理MS word文档并从中生成一些输出。该文件的格式如下 -

PARAGRAPH1

.......

.......

PARAGRAPH2

.......

.......

问题是双管齐下 -

哪个InputFormat适用于MS word couments，我知道TeXtInputReader不应该在这里工作，如果我错了请纠正我。
我需要明智地解析文档，而不是行，所以我需要为此编写自定义RecordReader吗？如果是的话，是否有任何指针？

对此的任何帮助都会非常有用。

0 个答案:

没有答案