如何过滤文档文本中常用的单词? (哈希地图)

时间:2015-04-17 02:12:57

标签: java hashmap hashset

感谢您的阅读。我目前有一个学校项目,我真的坚持。目的是从Web检索文档文本,然后将每个单词存储到地图对象中,同时省略常用单词,如“which,about,during,after”等。

基本上归结为:

//要忽略的单词列表

    Set<String> ignore = new HashSet<>(Arrays.asList(new String[]{
  "after", "which", "later", "other", "during", "their", "about"}));

//将遍历文档文本(内容)以查找附加的单词 到word_pattern(为了简单起见,可以说单词将有5个字母或更多)

Matcher match = Pattern.compile(word_pattern).matcher(content);
while (match.find()) {
   String word = match.group().toLowerCase();

所以现在在这个while循环中我希望跳过忽略集中的任何单词,否则将它添加到地图对象中......但我似乎无法正确使用它似乎没有任何东西可以点击给我。我可以轻松地将所有单词添加到地图对象中并进行一些扣除,但我希望能够为我的理智做到这一点。

1 个答案:

答案 0 :(得分:2)

您的忽略字词列表是Set,它提供contains方法 可以简单地在循环中添加这个条件:

if(!ignore.contains(word))
{
    //addToList
}