Question

我有一个包含职称的数据集，我想将它们聚类。

职位名称包括：

pip install mysqlclient

我要清理标题（删除不需要的字符，大写所有标题等），以便让事情更容易使用。一旦我对语料库进行矢量化，维度就会非常大。对于像这样的问题，您会推荐哪种群集algs？ KMeans在高维度问题上表现得很好吗？

Answer 1

使用brown clustering。实施可用here。