首先,让我向您介绍我的问题:对于一个项目,我必须对8000个问题进行分类,并将它们分为7类(宪法,体育,地理,历史,科学,教育和科技)。因为问题很短,所以SVM没有多大意义,所以我只为每个类别创建了一个单词列表。为了提高准确性,我必须扩展这些列表,因此可以将未标记的字符串放入类别中。在互联网上我听说过WordNet来获取单词的同义词(这对我来说很有意义,因为我需要尽可能多的同义词)。 但问题出现了:WordNet显示在
下from nltk.corpus import wordnet as wn
for synset in wn.synsets(word):
for lemma in synset.lemmas():
print(lemma.name())
所有相关词汇。一个例子是资本这个词:我只是指一个国家的首都城市意义上的资本,但WordNet返回的词语资本,工作,大写字母,大写,大写,majuscule和首都华盛顿。 显然,我不需要在一袋字的地理上用大写这个词。 所以我问你是否有可能将WordNet减少到只有一个含义,或者是否有任何替代方案我可以使用。
真诚的,詹姆斯