使用Java搜索Ms-word文件的内容

时间:2011-11-01 09:04:42

标签: java ms-word

我的要求是搜索位于同一文件夹中的多个MS-word或Ms-Excel文件中的内容。我如何使用Java技术实现这一点?请给我一个概述。

谢谢

3 个答案:

答案 0 :(得分:1)

您可以充分利用可用的第三方组件,例如Apache POI(免费)或ASPOSE(付费)。他们的文件应该指定了检索MS文档中数据的方法。

参考: How to read content from ms word files using Jakarta POI

答案 1 :(得分:1)

可以使用Apache Tika轻松提取Microsoft Word文件的内容并搜索文本。

示例代码 -

File f = new File("path to file");
FileInputStream is = new FileInputStream(f);
ContentHandler contenthandler = new BodyContentHandler();
Metadata metadata = new Metadata();
metadata.set(Metadata.RESOURCE_NAME_KEY, f.getName());
Parser parser = new AutoDetectParser();
parser.parse(is, contenthandler, metadata);
System.out.println(metadata.get(Metadata.TITLE));
System.out.println(contenthandler.toString());

您可以搜索contenthandler.toString()作为内容。

答案 2 :(得分:0)

您可以分别尝试将Aspose.Words for Java和Aspose.Cells for Java分别用于extract contents from Microsoft Wordget data from Microsoft Excel文档。请注意,这两个组件不需要在开发或部署计算机上安装Microsoft Office。你最后可以try these file processing components

披露:我在Aspose担任开发人员传播者。