在java中搜索Docx文件

时间:2011-07-07 08:54:12

标签: java jar docx searching-xml

我正在编写一个搜索文档内容的应用程序 我已经编写了用于搜索可由记事本编辑的文档的代码。

我也希望对docx文件也这样做。经过一些研究,我提出了这两件事

  1. http://www.infoq.com/articles/cracking-office-2007-with-java 这个方法要求我提取docx文件然后搜索xml文件但是这会涉及提取部分的额外开销,坦率地说我不知道​​如何处理xml文件(丢弃属性内容等)

  2. http://www.javadocx.com/download 这个方法允许我将jar库导入我的项目,据说我可以用它创建docx文件,我不明白如何使用它打开docx文件

  3. 任何人都可以向我推荐一种替代方法来执行相同的操作或帮助完成上述两种方法吗?

1 个答案:

答案 0 :(得分:1)

尝试http://tika.apache.org/或docx4j或POI。