我想用NLP(自然语言处理)在主题列表上进行SEMANTIC关键字搜索。如果您发布任何参考链接或想法,那将是非常值得的。
答案 0 :(得分:0)
你的问题有点模糊,但我会尝试......
如果我理解正确,那么您想要做什么(取决于您想要花费的精力)如下:
将关键字扩展为您将在主题中搜索的同义词列表(您可以使用WordNet)。
使用搭配(n-gram模型)将关键字扩展为可能的二元组,并在文本中搜索这些元素。
根据数据的可用性,您可能还需要创建一个分类器(例如,使用旧的SVM或CRF),将关键字列表映射到主题(主题是一个类)。
< / LI>假设每个主题都有多个文档,您可能还想创建每个主题最常用词的列表(消除停用词)。
对于Python和OpenNLP,libsvm,Java中的LingPipe,大多数功能都可以通过NLTK,Pandas等获得。