将论坛讨论编译成分类文章或信息的算法/方法?

时间:2011-11-27 17:06:36

标签: java data-mining text-mining

我正在设计和编写基于知识的社区共享系统(论坛,问答,学生,教授和专家之间的文章共享),用于网络。

我需要使用一些数据挖掘/文本处理技术/算法来分析专家和学生之间的讨论(讨论使用标签进行分类),并针对特定的类似主题创建适当的注释和编辑。

我不是有关此类算法或工具的专家。如果有人能提供一些指示或解释我如何处理这个问题,那就太好了。

谢谢!

2 个答案:

答案 0 :(得分:0)

开始阅读Text Mining。你的问题没有一般的答案,因为它不够精确。你必须更准确地了解你的目标,然后人们可以建议这些方法。你的“分析”过于宽泛。计算单词的数量也是“分析”!

那么:你想要识别,分组或预测什么?

答案 1 :(得分:0)

对于文章的分类,您可以使用LSA(潜在语义分析)技术。

您可以查看这些工具进行文字处理。

  1. LingPipe:处理文字的工具包。

  2. Lucene:文本挖掘

  3. Solr:强大的文字搜索工具