标签: nlp semantics text-mining wordnet
我想知道如何使用WordNet从文本文档中提取概念。早些时候我使用词袋方法来测量文本文档之间的相似性,但是我希望使用文本的语义信息,因此希望从中提取概念我理解Wordnet提供的Sysnet包含给定单词的同义词。 但是我想要实现的是我如何使用这些信息来定义文本数据中的概念。我想我是否需要在使用sysnet之前单独和手动定义概念列表,然后将这些概念与sysnet进行比较。
感谢任何建议或链接。
答案 0 :(得分:0)
我认为你会发现有太多的概念可以自己列举所有这些概念来实用。相反,您应该考虑使用预先存在的知识来源,例如Wikidata,Wikipedia,Freebase,推文内容,网络或其他来源作为基础用于构建您的概念。您可能会发现聚类算法可用于定义这些算法。在同义词方面......与概念相关的词语可能不一定是同义词(例如,爱情和仇恨可能与关于情感强度的相同概念相关联,而某些词语可能属于多个概念(例如婚礼)可能同时存在于爱情和婚姻概念中,所以我建议从synset到概念之间建立一些不严格1:1的联系。