使用java指定文本中名词的频率

时间:2012-10-08 19:13:30

标签: java regex nlp text-processing

我有一个文件包含附有POS标签的单词,如

Tom/NNP went/VBP to/IN the/DT stadium/NN ....etc

我需要知道所有名词在此文件中包含的频率。因此,输出可能是

stadium     12 
football    20
player      13

这些数字是这些名词出现在文本中的次数。我怎么能在java中这样做?

1 个答案:

答案 0 :(得分:1)

有一个从字符串(名词)到整数(计数)的地图。循环遍历文件中的每个单词。检查'/'后面的单词部分,如果它是名词,如果它不在那里,则将其放在带有“1”值的地图中,或者将现有值加1。然后遍历地图,打印出键/值对。