我想制作一个在pdf中搜索单词的程序 使用PDFBox。
这是我的小程序:
List<String> words ;// List of words
PDDocument document = PDDocument.load("D:\\INIT.pdf");
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);
Comparing(content,words);//methode for searching those words on my text
System.out.println(content);
但是可以直接查看PDF而没有带getText
的文本吗?
getText
返回一个字符串。如果我们在pdf文件中有一个大文本,这个字符串可以带有相同的文本,当文本很大而字符串不支持时,是否有另一种类型用于此案例????
答案 0 :(得分:1)
我希望您在PDFBox中找到解决方案。
整个过程比看起来要困难得多。例如,PDF文本被分成不连续的片段,空格通常表示为间隙而不是空格字符。既需要抽象片段,也需要保留人类可读文本与PDF中底层片段之间的联系。这很棘手。
无论如何,如果你在PDFBox中找不到满意的解决方案,ABCpdf会为你做这件事。例如,下面的链接显示了如何在PDF中查找和突出显示关键字。
我在ABCpdf .NET软件组件上工作,所以我的回复可能包含基于ABCpdf的概念。这就是我所知道的。 : - )