从单词列表中聚类语义相关的单词

时间:2015-04-16 07:27:47

标签: nlp semantics word text-mining wordnet

我有一个包含大约30000个唯一字词的单词列表 我想根据这些单词的相似程度对这个单词列表进行分组。 我可以使用此列表创建一个本体树,并可能在WordNet的帮助下创建吗?

基本上我想做的就是以一些有意义的方式聚合这些词来减少列表的大小。
我可以使用哪种技术来做到这一点?

1 个答案:

答案 0 :(得分:1)

你当然可以使用Wordnet根据他们的SYNSET向这些单词聚类迈出第一步。除了相同的含义'和'相反的含义' Wordnet还包括'部分'关系。遵循这些关系,啤酒'例如,访问包含同义词集的所有这些:Brew1,Alcohol1,Drug_of_abuse1,Drug1,Agent3,Substance7,Matter3,Physical_entity1,Entity1,Causal_agent1,Beverage1,Liquid1,Fluid1,Substance1,Part1,Relation1,Abstraction6,Food1。

但是......这取决于你在Wordnet中会找到多少单词。它不包含动词时态,也没有一套非常大或非常现代的专有名词。如果你有30,000个单词是形容词和名词,它应该做得很好。