我一直致力于一个项目,要求我根据产品描述提供关键字/关键短语建议。
我目前拥有的产品:产品描述,产品类别(可能存在或可能不存在)。
我想要的:基于描述的机器生成的关键字/关键短语。
我做了哪些研究:(基于NLP的方法)这个问题可以分解为两种不同的方法。
这将是一种不使用数据库中存在的描述的方法。
我正在寻找的是一种更好的方法,它使用ML算法并使用我过去的产品描述数据。
我正在考虑对整个数据集应用浅层解析,然后给出超过N个产品遇到的关键字。
什么算法或方法会派上用场? 我如何使用我的数据?
答案 0 :(得分:0)
尝试查看基本模型如:Term Frequency或TF-IDF,这会给你一些重要的词:https://en.wikipedia.org/wiki/Tf%E2%80%93idf, 然后搜索文本聚类(对于群集文本到彼此相关的群组)和主题检测方法(这可以帮助您找到与文档相关的突出单词和主题)
然后你可以找到每个群集的关键词(你也可以考虑文档的类别),并尝试找到最相关的词到另一个词
我建议阅读本书的一些/或整章:http://nlp.stanford.edu/IR-book/https://en.wikipedia.org/wiki/Tf%E2%80%93idf