我想使用Java中的正则表达式从word文档或pdf文档中搜索文本。可能吗 ?怎么做?
例如PDF / DOC看起来像这样:
(54) About Keyboard More Info Date : 29/02/2003 Printed : US Filed: 19/03/2005 Viewed : 5 times
现在我的目标是使用java ..
对此文档运行基于正则表达式的搜索最初是在尝试过的文本提取中,但由于它们是非结构化和分散的,所以我无法使用提取的文本。
例如......我想这样做..
File fl = new File ("sample.pdf");
String res= FindBYRegex ("(?s)\\(54\\)\\s*(.*?)\\s*(?=\\(\\d|$\\))");
System.out.println (res);
输出为(54) About Keyboard
..
如何实现我的目标?哪个库帮助我使用Java做到这一点?
答案 0 :(得分:0)
直接您无法使用Java进行搜索。您可以使用Tika提取文件的内容,然后可以应用正则表达式。
答案 1 :(得分:0)
我想使用Java中的正则表达式从word文档或pdf文档中搜索文本。可能吗 ?怎么做?
Gnostice PDFOne for Java支持使用Java Regular Expression在PDF文档中搜索文本。有关详细信息,请点击以下链接。
免责声明:我为Gnostice工作。