使用lucene在pdf中搜索关键字并使用和提取相应的区域

时间:2015-03-31 06:04:44

标签: java pdf lucene keyword-search

以下是尝试在pdf中搜索关键字的代码: `

          File pdfFile = new File(pdfString);
              IndexItem pdfIndexItem = index(pdfFile);
              Indexer indexer = new Indexer(INDEX_DIR);
              indexer.index(pdfIndexItem);

               indexer.close();

             Searcher searcher = new Searcher(INDEX_DIR);
             int result = searcher.findByContent("Fusion", DEFAULT_RESULT_SIZE);
             if(result==1)
          System.out.println("The document contains the search keyword");
          else
          System.out.println("The document does not contain the search keyword");
          searcher.close()`

这样可以正常工作,但它只是说文档包含关键字。我希望的是,如果在找到关键字后(最有可能多次),它会提取关键字所在的区域。 按区域划分,我的意思是包含关键字 的句子。是否需要将pdf文本存储在一个文件中,然后进行正常的字符串标记,或者这样做而不存储pdf的文本版本?

0 个答案:

没有答案