用PDFBox编程搜索单词

时间:2013-05-13 11:28:24

标签: java pdf pdfbox

我想制作一个在pdf中搜索单词的程序 使用PDFBox。

这是我的小程序:

List<String> words ;// List of words 
        PDDocument document = PDDocument.load("D:\\INIT.pdf");              
        PDFTextStripper s = new PDFTextStripper();
        String content = s.getText(document);
        Comparing(content,words);//methode for searching those words on my text
        System.out.println(content);

但是可以直接查看PDF而没有带getText的文本吗?

getText返回一个字符串。如果我们在pdf文件中有一个大文本,这个字符串可以带有相同的文本,当文本很大而字符串不支持时,是否有另一种类型用于此案例????

1 个答案:

答案 0 :(得分:1)

我希望您在PDFBox中找到解决方案。

整个过程比看起来要困难得多。例如,PDF文本被分成不连续的片段,空格通常表示为间隙而不是空格字符。既需要抽象片段,也需要保留人类可读文本与PDF中底层片段之间的联系。这很棘手。

无论如何,如果你在PDFBox中找不到满意的解决方案,ABCpdf会为你做这件事。例如,下面的链接显示了如何在PDF中查找和突出显示关键字。

http://www.websupergoo.com/helppdf9net/source/8-abcpdf.operations/8-textoperation/1-methods/group.htm

我在ABCpdf .NET软件组件上工作,所以我的回复可能包含基于ABCpdf的概念。这就是我所知道的。 : - )