标签: machine-learning nlp scikit-learn
我有一个包含职称的数据集,我想将它们聚类。
职位名称包括:
pip install mysqlclient
我要清理标题(删除不需要的字符,大写所有标题等),以便让事情更容易使用。一旦我对语料库进行矢量化,维度就会非常大。对于像这样的问题,您会推荐哪种群集algs? KMeans在高维度问题上表现得很好吗?
答案 0 :(得分:1)
使用brown clustering。实施可用here。