需要一个关于文本挖掘的想法,用于从大量文件中挖掘数据

时间:2011-12-21 15:59:49

标签: data-mining text-mining

我是数据挖掘的新手。我正在做我的B.Tech最后一年,我的最后一年项目名称是“使用文本挖掘从学生反馈中提取和分析管理学科的教师绩效”。在这里,我们将有多个文件包含学生提供的反馈,每个学生将有一个文件。从所有这些文件中我们必须检索有用的信息。

任何人都可以建议我如何开始,使用什么工具? 有什么技术可以使用? 我熟悉JAVA(jse),我能用java编程语言实现这个,怎么做?

...问候 Upendra.S

3 个答案:

答案 0 :(得分:3)

一些想法:

  • 哪些是最常用的单词或短语?
  • 哪些词经常共同出现(关联分析)
  • 按学生成绩分类的单词/短语频率(上下学生在他们的教授评论中使用哪些单词?)
  • 按教师评分的单词/短语频率(哪些单词与学生给教师的分数相关?)
  • 教师任期的词/短语频率(哪些词与新老教授相关?)

这是我关于使用rapidminer进行文本挖掘的五部分系列文章:

http://vancouverdata.blogspot.com/2010/11/text-analytics-with-rapidminer-loading.html

答案 1 :(得分:1)

我相信Rapidminer有一个文本挖掘扩展。然后是JTMT。

此处也使用搜索功能:

另请参阅教育数据挖掘社区。他们可能有类似的任务。

答案 2 :(得分:0)

在我看来,您可以浏览这些主题。它帮助了我的一个项目。

工具 - Matlab TMG tool

使用的算法 - 潜在语义分析。 (LSA Example

数学概念 - 奇异值分解。 (SVD