java-定义单词的

时间:2018-11-14 01:51:19

标签: java pdfbox

我正在研究一个简单的全文本倒排索引,试图建立从PDF文件中提取的单词索引。我正在使用PDFBox库来实现此目的。

但是,我想知道如何定义要索引的单词的定义。我的索引工作方式是用空格定义每个单词都是单词标记。例如,

This string, is a code.

在这种情况下:索引表将包含

This
string,
is
a
code.

这里的缺陷就像string,一样,它带有逗号,我认为string就足够了,因为没有人搜索string,code.

回到我的问题,我是否可以使用特定的规则来定义我的单词令牌,以防止我所拥有的此类问题?

代码:

File folder = new File("D:\\PDF1");
File[] listOfFiles = folder.listFiles();

for (File file : listOfFiles) {
   if (file.isFile()) {
      HashSet<String> uniqueWords = new HashSet<>();
      String path = "D:\\PDF1\\" + file.getName();
      try (PDDocument document = PDDocument.load(new File(path))) {    
          if (!document.isEncrypted()) {    
             PDFTextStripper tStripper = new PDFTextStripper();
             String pdfFileInText = tStripper.getText(document);
             String lines[] = pdfFileInText.split("\\r?\\n");
             for(String line : lines) {
                String[] words = line.split(" ");    
                for (String word : words) {
                    uniqueWords.add(word);   
                }

             }                            
          }
       } catch (IOException e) {
         System.err.println("Exception while trying to read pdf document - " + e);
       }
   }
}

2 个答案:

答案 0 :(得分:2)

如果您想删除所有标点符号,可以执行以下操作:

for(String word : words) {
    uniqueWords.add(word.replaceAll("[.,!?]", ""));
}

这将替换所有的句号,逗号,感叹号和问号。


如果您还想删除引号,可以执行以下操作:

uniqueWords.add(word.replaceAll("[.,?!\"]", "")

答案 1 :(得分:1)

是的。您可以使用replaceAll方法来消除非单词字符,例如:

uniqueWords.add(word.replaceAll("([\\W]+$)|(^[\\W]+)", ""));