我应该使用哪种聚类算法来聚类作业?

时间:2016-03-16 23:26:02

标签: machine-learning nlp scikit-learn

我有一个包含职称的数据集,我想将它们聚类。

职位名称包括:

pip install mysqlclient

我要清理标题(删除不需要的字符,大写所有标题等),以便让事情更容易使用。一旦我对语料库进行矢量化,维度就会非常大。对于像这样的问题,您会推荐哪种群集algs? KMeans在高维度问题上表现得很好吗?

1 个答案:

答案 0 :(得分:1)

使用brown clustering。实施可用here