标签: data-mining k-means text-mining levenshtein-distance hierarchical-clustering
我有一套大学课程(约30000)。每门课程都有以下属性,这是一个例子:
我想对这些课程进行分组,以帮助用户提供他们喜欢或搜索过的类似课程的建议。一个例子是,如果用户正在搜索“机器学习”,则系统可以建议“人工智能”,因为这些课程的内容有点类似。我正在考虑采用三种不同的方法来实现这一目标。
我的计划是在Matlab中尝试这种方法,提出最好的方法,并最终(如果我有足够的时间)实现它。我打算将此作为我的硕士论文,所有相关信息都将受到高度赞赏。在给定的数据集上比较这三种方法是否有意义?
谢谢。