如何将相似的类别分组?

时间:2019-05-08 21:06:18

标签: python python-3.x nlp classification text-classification

我有大约1200个电视节目类别。.例如戏剧,新闻,体育,非体育赛事,戏剧医疗,戏剧犯罪等。

我如何使用NLP,以便使诸如戏剧,戏剧医疗和戏剧犯罪等团体以及体育,非体育赛事等团体聚在一起,等等……基本上,最终目标是减少1200个类别几乎没有广泛的类别。

到现在为止,我已经使用一堆单词来构建包含146个单词的字典。

2 个答案:

答案 0 :(得分:0)

使用预先训练的模型来生成嵌入,然后您可以使用t-SNE或UMAP之类的聚类算法对嵌入进行聚类。我建议使用fasttextspacy,其中spacey是最容易使用的。

答案 1 :(得分:0)

如果您正在寻找NLP软件包,则可以检查一些模块,其中第一个是:

SciKit-Learn

它具有大量的类和有序且易于理解的文档,但是没有使用神经网络进行文本处理。还有:

Natural Language Toolkit

它具有最发达,最完善的优势,但速度很慢。

SpaCy

这是相当快的,但是速度是以不如我提到的其他库那么灵活为代价的。我相信,到目前为止,它已经支持7种语言,但是对于一个起点来说可能就足够了。

尽管如此,对于您要使用NLP实现的目标,最好的选择可能是NLTK。有一个great tutorial playlist from sentdex。祝你好运!