机器学习/信息检索项目

时间:2010-09-29 10:24:37

标签: machine-learning information-retrieval

我正在向M.Sc.在计算机科学和刚刚完成的第一年的源。 (这是一个为期两年的课程)。很快我就不得不向M.Sc.提交一份提案。项目。我选择了以下主题。

“机器学习在信息检索系统中对文档排名的适用性”。研究人员一直在使用各种机器学习算法对文档进行排名。因此,作为该项目的第一阶段,我将进行一次完整的文献调查,并找出当前方法的优缺点。在项目的第二阶段,我将提出一种新的(修改的)算法,以克服当前方法的局限性。

实际上我的问题是这种类型的项目是否适合作为硕士学位。项目?此外,如果有人在信息检索领域有一些有趣的想法,是否有可能与我分享这些想法。

由于

2 个答案:

答案 0 :(得分:6)

排名始终是任何信息检索系统中最难的部分。我认为这是一个非常好的主题,但你必须尽快 - 尽快 - 确定工作范围。可能你不能开发新的红外引擎,而是建立一个基于例如apache lucene的原型。

目前有很多数据集包括stackoverflow数据转储,它为您提供定义丰富特征向量所需的所有信息(点数,时间,您可以挖掘上一个问题的主题等,标记的流行度)为你机器学习排名算法。在这部分工作中,您可以,例如,对特征类型进行分类(例如,用户特定的,语义特征 - 标题中的软件名称),并执行一系列实验以了解哪些特征最重要哪些特征不适用于给定数据集。

这样一个项目的第二个方向可以是如何有效地进行学习。背后的原因是网络或社区论坛中的数据量以及论坛中的变化(如果您采用社区特定功能,这将非常重要),例如技术变更,新软件发布等。

还有许多与搜索和机器学习相关的主题。最好的办法是在 scholar.google.com 上搜索最近关于排名,机器学习和搜索的调查报告,以了解最先进的技术。下一步是与您的理学硕士主管交谈。

祝你好运!

答案 1 :(得分:1)

你所说的一切都很好,应该做,但你忘记了最重要的部分:

证明您的算法比其他算法更好和/或更快,具有良好的实验和一些统计数据(p值,置信区间)。

如果你这样做并说服人们你的算法很有用,你肯定不会失败:)