我最近遇到了Apache Tika,这是一个漂亮的工具包,它处理几种类型的文件以提取文本(以及其他一些信息,如元数据)。
我面临的问题是,给定一个文档(以某种格式,如PDF,DOC,XLS等),我需要提取文本,修改其中一些,并且以原始格式(使用修改后的文本)重新构建文档。据我所知,Tika提供了提取文本的功能,但不会“修改”修改过的文档。
我觉得有一些库为特定文件类型执行此操作,但我不知道任何类似于Tika的工具包,它通过处理为我提供端到端解决方案所有 Tika支持的文件类型。我也不确定蒂卡本身是否可以为我做这件事。
如果有人知道这类事,请告诉我。我正在寻找一个用Java编写的库。
此致
萨里尔
编辑:coderanch.com/how-to/java/AccessingFileFormats有几个工具包列表,但我很感激能够全面包装Tika支持的所有格式。答案 0 :(得分:2)
Apache POI是您的Java Excel解决方案(适用于Excel 97-2008)。我们有一个完整的API用于移植其他OOXML和OLE2格式,并欢迎其他人参与。
OLE2文件包括大多数Microsoft Office文件,如XLS,DOC和PPT以及基于MFC序列化API的文件格式。该项目为OLE2文件系统(POIFS)和OLE2文档属性(HPSF)提供API。
Office OpenXML格式是Microsoft Office 2007和2008中新的基于标准的XML文件格式。这包括XLSX,DOCX和PPTX。
Eclipse Birt
问:BIRT支持哪些报告输出格式?
Release 2.1支持HTML,Paginated HTML和PDF。 2.2版支持HTML,分页HTML,PDF,WORD,XLS和PostScript
答案 1 :(得分:0)
似乎没有提到的更好的工具包here。唯一的出路是为一个或多个这些工具包编写自己的包装器以完成工作。如果Tika本身提供这种设施本来会很棒,但不幸的是,情况似乎并非如此。