data-mining - 使用3种不同的方法对文本进行聚类（MinHash，HAC，K-means）

我有一套大学课程（约30000）。每门课程都有以下属性，这是一个例子：

标题：机器学习
机构名称：信息技术部
说明：课程结束后，学生应该能够：通过实施或设置和解决典型的机器学习问题使用模拟工具，确定不同的学习方法适用于不同类型的学习问题，即了解方法的优点和缺点，树立了良好的代表性数据，识别不良选择的典型影响并确定如何改进结果并描述机器学习的方式和原因和自然计算方法。\

我想对这些课程进行分组，以帮助用户提供他们喜欢或搜索过的类似课程的建议。一个例子是，如果用户正在搜索“机器学习”，则系统可以建议“人工智能”，因为这些课程的内容有点类似。我正在考虑采用三种不同的方法来实现这一目标。

我的计划是在Matlab中尝试这种方法，提出最好的方法，并最终（如果我有足够的时间）实现它。我打算将此作为我的硕士论文，所有相关信息都将受到高度赞赏。在给定的数据集上比较这三种方法是否有意义？

谢谢。