使用3种不同的方法对文本进行聚类(MinHash,HAC,K-means)

时间:2014-03-18 19:27:48

标签: data-mining k-means text-mining levenshtein-distance hierarchical-clustering

我有一套大学课程(约30000)。每门课程都有以下属性,这是一个例子:

  • 标题:机器学习
  • 机构名称:信息技术部
  • 说明:课程结束后,学生应该能够:通过实施或设置和解决典型的机器学习问题 使用模拟工具,确定不同的学习方法 适用于不同类型的学习问题,即了解 方法的优点和缺点,树立了良好的代表性 数据,识别不良选择的典型影响并确定如何 改进结果并描述机器学习的方式和原因 和自然计算方法。\

我想对这些课程进行分组,以帮助用户提供他们喜欢或搜索过的类似课程的建议。一个例子是,如果用户正在搜索“机器学习”,则系统可以建议“人工智能”,因为这些课程的内容有点类似。我正在考虑采用三种不同的方法来实现这一目标。

  1. TF-IDF +球形K-means
  2. levenstein相似度+层次凝聚聚类
  3. Jaccard相似度+ minhash +局部敏感散列(LSH)
  4. 我的计划是在Matlab中尝试这种方法,提出最好的方法,并最终(如果我有足够的时间)实现它。我打算将此作为我的硕士论文,所有相关信息都将受到高度赞赏。在给定的数据集上比较这三种方法是否有意义?

    谢谢。

0 个答案:

没有答案