Question

以下是尝试在pdf中搜索关键字的代码： `

          File pdfFile = new File(pdfString);
              IndexItem pdfIndexItem = index(pdfFile);
              Indexer indexer = new Indexer(INDEX_DIR);
              indexer.index(pdfIndexItem);

               indexer.close();

             Searcher searcher = new Searcher(INDEX_DIR);
             int result = searcher.findByContent("Fusion", DEFAULT_RESULT_SIZE);
             if(result==1)
          System.out.println("The document contains the search keyword");
          else
          System.out.println("The document does not contain the search keyword");
          searcher.close()`

这样可以正常工作，但它只是说文档包含关键字。我希望的是，如果在找到关键字后（最有可能多次），它会提取关键字所在的区域。 按区域划分，我的意思是包含关键字 的句子。是否需要将pdf文本存储在一个文件中，然后进行正常的字符串标记，或者这样做而不存储pdf的文本版本？

使用lucene在pdf中搜索关键字并使用和提取相应的区域

0 个答案: