是否可以使用java在PDF文档或Word文档中使用正则表达式搜索文本?

时间:2014-01-15 14:20:23

标签: java regex pdf itext pdfbox

我想使用Java中的正则表达式从word文档或pdf文档中搜索文本。可能吗 ?怎么做?

例如PDF / DOC看起来像这样:


(54) About Keyboard                                     More Info

Date : 29/02/2003                                     Printed : US
Filed: 19/03/2005                                     Viewed : 5 times 

现在我的目标是使用java ..

对此文档运行基于正则表达式的搜索

最初是在尝试过的文本提取中,但由于它们是非结构化和分散的,所以我无法使用提取的文本。

例如......我想这样做..

File fl = new File ("sample.pdf");
String res=  FindBYRegex ("(?s)\\(54\\)\\s*(.*?)\\s*(?=\\(\\d|$\\))");
System.out.println (res);    

输出为(54) About Keyboard ..

如何实现我的目标?哪个库帮助我使用Java做到这一点?

2 个答案:

答案 0 :(得分:0)

直接您无法使用Java进行搜索。您可以使用Tika提取文件的内容,然后可以应用正则表达式。

答案 1 :(得分:0)

  

我想使用Java中的正则表达式从word文档或pdf文档中搜索文本。可能吗 ?怎么做?

Gnostice PDFOne for Java支持使用Java Regular Expression在PDF文档中搜索文本。有关详细信息,请点击以下链接。

http://www.gnostice.com/nl_article.asp?id=232&t=PDF_Text_Search_And_PDF_Text_Extraction_Using_PDFOne_for_Java

免责声明:我为Gnostice工作。