我必须处理PDF文档。 Bigdata中是否有任何工具可以处理我的pdf文档(半结构化数据)? 例如.. 如果我的PDF文档包含任何主题,如摘要或动作,我必须检索那些段落没有任何页脚。 现在我正在使用pdfBox& java API提取我的pdf文档,但是有没有大数据工具可以进行相同的提取?
答案 0 :(得分:0)
我不知道有什么工具可以执行您想要做的事情,但如果您可以设置Hadoop集群(或使用Amazon AWS服务),那么您可以轻松地使用Hadoop流传输PDF文档用户定义的程序(java中的内容应该可以正常工作)。
有一个很好的例子,说明如何在this earlier SO question中使用Hadoop流与自定义Java程序。