应用错误收集

是否有任何大数据工具来处理pdf文档

时间：2013-08-27 10:08:53

标签： java pdf hadoop bigdata

我必须处理PDF文档。 Bigdata中是否有任何工具可以处理我的pdf文档（半结构化数据）？例如.. 如果我的PDF文档包含任何主题，如摘要或动作，我必须检索那些段落没有任何页脚。现在我正在使用pdfBox＆amp; java API提取我的pdf文档，但是有没有大数据工具可以进行相同的提取？

1 个答案:

答案 0 :(得分：0)

我不知道有什么工具可以执行您想要做的事情，但如果您可以设置Hadoop集群（或使用Amazon AWS服务），那么您可以轻松地使用Hadoop流传输PDF文档用户定义的程序（java中的内容应该可以正常工作）。

有一个很好的例子，说明如何在this earlier SO question中使用Hadoop流与自定义Java程序。