来自文件的句子计数器

时间:2014-10-17 22:50:09

标签: java eclipse counter sentence

我正在尝试制作一个简单的程序来计算单词,某些字符串和句子。我有一个单词counter,我有一个计数器来计算某些字符串但是,我无法弄清楚如何计算句子,因为基本上如果我计算所有的小数,如果有多个“。”。

到目前为止这是我的代码..

int count = 0;
// while there is something in the file, keep reading and counting
while (inputFile.hasNext()) {
   String token = inputFile.next();
   count++;
}

int letters = 0;
Scanner scanner = new Scanner(file);
while (scanner.hasNextLine()) {
    String nextToken = scanner.next();
    if (nextToken.equalsIgnoreCase("for"))
    {
    letters++;
    }

}

1 个答案:

答案 0 :(得分:0)

这里有一些答案 - Java simple sentence parser使用StringTokenizer,正则表达式,BreakIterator,等等 - 但真实的故事是:如果你想真正找到它们,识别句子并不是一项微不足道的任务。只需使用引号和数字一起考虑一个真正的长句。

您可以尝试使用多个库,从Sentence Parser到NLP更复杂的库,例如lingpipe,weka和gate。 (见http://www.quora.com/What-are-the-best-Java-open-source-NLP-toolkits

这一切都取决于你想要的深度。