应用错误收集

如何在Hadoop中访问和操作pdf文件的数据？

时间：2012-02-15 08:36:17

标签： hadoop hadoop-streaming hadoop-plugins hadoopy

我想用hadoop阅读PDF文件，怎么可能？我只知道hadoop只能处理txt文件，所以无论如何都要将PDF文件解析为txt。

给我一些建议。

2 个答案:

答案 0 :(得分：2)

一种简单的方法是创建一个SequenceFile来包含PDF文件。 SequenceFile是二进制文件格式。您可以将SequenceFile中的每条记录都设为PDF。为此，您将创建一个派生自Writable的类，该类将包含PDF和您需要的任何元数据。然后，您可以使用任何java PDF库（例如PDFBox）来操作PDF。

答案 1 :(得分：0)

在Hadoop中处理PDF文件可以通过扩展FileInputFormat类来完成。让扩展它的类是WholeFileInputFormat。在WholeFileInputFormat类中，您将覆盖getRecordReader（）方法。现在每个pdf将作为个人输入分组接收。然后可以解析这些个别分裂以提取文本。这个link提供了一个理解如何扩展FileInputFormat的明显示例。