使用机器学习根据与Python的相关性对文档进行分类

时间:2018-09-19 11:18:10

标签: python tensorflow

我正在开发一个应用程序,以在多个新闻源中搜索关键字,并返回按与关键字的相关性排序的链接数据库。但是,我碰壁了。是否可能有一个训练集,其中有几篇文章被确认与某个关键字相关(并且有大量不同的关键字),然后当然有一些文章被确认不相关,并且训练该分类器使用以下关键词和文章未经训练的关键字?例如,如果我有一组关于狗的相关文章,关于猫的相关文章,关于鱼的相关文章的培训集,然后在有关构造的文章上尝试使用该分类器,理论上我可以得到准确的答案? Here's the link to my project if anyone is interested

1 个答案:

答案 0 :(得分:-1)

如果您希望系统使用尚未预定义的标签,那么您可能应该考虑采用无监督的方法。 Google使用聚类算法将他们的新闻文章分类为当天的主题,也就是说,没有针对关键字列表进行训练。您为什么不尝试LDA,看看是否获得有意义的结果?这是一个可以帮助的python库。 https://radimrehurek.com/gensim/models/ldamodel.html#gensim.models.ldamodel.LdaModel

还要考虑是否需要标签或只需要对文档进行分组。如果您只需要对文档进行分组,那么普通的聚类就可以了。

如果您要训练一些标签,则可以采用混合方法。