关键字建议算法

时间:2016-07-20 02:22:05

标签: algorithm machine-learning nlp keyword

我一直致力于一个项目,要求我根据产品描述提供关键字/关键短语建议。

我目前拥有的产品:产品描述,产品类别(可能存在或可能不存在)。

我想要的:基于描述的机器生成的关键字/关键短语。

我做了哪些研究:(基于NLP的方法)这个问题可以分解为两种不同的方法。

  • 不使用过去的数据:只是总结当前的描述
  • 方法: - 标记化,词干化,删除停用词等(预处理)
  • 浅NLP(选区解析)并仅保留NP& JJ短语。

这将是一种不使用数据库中存在的描述的方法。

我正在寻找的是一种更好的方法,它使用ML算法并使用我过去的产品描述数据。

我正在考虑对整个数据集应用浅层解析,然后给出超过N个产品遇到的关键字。

什么算法或方法会派上用场? 我如何使用我的数据?

1 个答案:

答案 0 :(得分:0)

尝试查看基本模型如:Term Frequency或TF-IDF,这会给你一些重要的词:https://en.wikipedia.org/wiki/Tf%E2%80%93idf, 然后搜索文本聚类(对于群集文本到彼此相关的群组)和主题检测方法(这可以帮助您找到与文档相关的突出单词和主题)

然后你可以找到每个群集的关键词(你也可以考虑文档的类别),并尝试找到最相关的词到另一个词

我建议阅读本书的一些/或整章:http://nlp.stanford.edu/IR-book/https://en.wikipedia.org/wiki/Tf%E2%80%93idf