过滤属于广泛类别的单词

时间:2012-04-02 09:28:53

标签: java nlp

我有一个单词列表(假设你必须存储在String []中)。我想过滤掉属于广泛类别的字词,例如音乐体育

是否有现成的解决方案(即使它只适用于一组有限的一般类别)?

或者你会怎么做呢?

它将在 Java 1.6 中完成,它是一个NLP(自然语言处理)问题。单词的输入列表具有随机单词,我想从这个大型列表中提取,只有属于给定通用类别的单词(这将是一个子集)。

另一种思维方式:给定一个单词,我想确定这个单词是否属于某个类别。 像这样:

String word1 = "football"; //the strings will always be single word units
String word2 = "telephone";
boolean b1 = belongsToCategory(Categories.SPORTS, word1); //true
boolean b2 = belongsToCategory(Categories.SPORTS, word2); //false

如果您需要更多信息,请询问。

1 个答案:

答案 0 :(得分:0)

好吧,我的想法是为每个类别保留一组单词并在每组中查看单词。

当然,如果你掌握了单个单词的所有变形形式,那么这个集合将变得庞大且无法维持。我会考虑使用词形还原来限制此集的大小。 您可能有兴趣查看以下链接: Lemmatization on WikipediaLemmatization java