Clojure - 将PDF / Doc文件提取为简单文本的最佳方法

时间:2014-12-04 12:59:31

标签: file-upload clojure

我正在寻找一个简单的解决方案来解析上传到我的应用程序的每个文件,并转换为简单的文本。我的Web应用程序在Clojure上运行,并且更喜欢API来解析各种文件类型。

1 个答案:

答案 0 :(得分:5)

查看apache poipdfboxapache tika

它们是用于处理各种文件格式的java库。您可以直接在clojure应用程序中使用他们的Java API。

以下是apache tika网站的引用。

  

Apache Tika™工具包可检测并提取元数据和文本   各种文件的内容 - 从PPT到CSV到PDF - 使用   现有的解析器库。 Tika将这些解析器统一在一起   界面允许您轻松解析超过一千个不同的文件   类型。 Tika对搜索引擎索引,内容分析很有用,   翻译等等。

以下是pdfbox网站的引用。

  

Apache PDFBox™库是一个开源的Java工具   PDF文档。该项目允许创建新的PDF文档,   操纵现有文档和提取内容的能力   来自文件

以下是poi网站的引用

  

多年来,Apache POI提供了基本文本   提取所有项目支持的文件格式。另外,作为   以及(普通)文本,它们提供对元数据的访问   与给定文件相关联,例如标题和作者。