我有大约1200个电视节目类别。.例如戏剧,新闻,体育,非体育赛事,戏剧医疗,戏剧犯罪等。
我如何使用NLP,以便使诸如戏剧,戏剧医疗和戏剧犯罪等团体以及体育,非体育赛事等团体聚在一起,等等……基本上,最终目标是减少1200个类别几乎没有广泛的类别。
到现在为止,我已经使用一堆单词来构建包含146个单词的字典。
答案 0 :(得分:0)
使用预先训练的模型来生成嵌入,然后您可以使用t-SNE或UMAP之类的聚类算法对嵌入进行聚类。我建议使用fasttext
或spacy
,其中spacey
是最容易使用的。
答案 1 :(得分:0)
如果您正在寻找NLP软件包,则可以检查一些模块,其中第一个是:
它具有大量的类和有序且易于理解的文档,但是没有使用神经网络进行文本处理。还有:
它具有最发达,最完善的优势,但速度很慢。
这是相当快的,但是速度是以不如我提到的其他库那么灵活为代价的。我相信,到目前为止,它已经支持7种语言,但是对于一个起点来说可能就足够了。
尽管如此,对于您要使用NLP实现的目标,最好的选择可能是NLTK。有一个great tutorial playlist from sentdex。祝你好运!