应用错误收集

时间：2012-01-05 04:53:44

标签： hadoop weka similarity mahout text-mining

我是文本挖掘领域的乞丐。我需要对文档相似性进行研究。我的目标是比较两个文档，然后根据数字提供它们之间的相似性。我已经阅读了很多关于此的理论。我打算从余弦相似性开始

你们有没有人帮我解决这些基本问题： 1.什么平台？（窗口/ Linux）的 2.什么工具（人们谈论weka / mahout / hadoop） - 我不知道该使用什么什么语言？有些问题可能听起来很荒谬，但我必须从头开始，我需要一些帮助

答案 0 :(得分：2)

对于软件，我强烈推荐RapidMiner，您可以从http://rapid-i.com获取。一些快速的专业人士：

根据我的经验，数据挖掘需要一些真正的规则来实现理想的结果。 RapidMiner应该提供帮助。

答案 1 :(得分：1)

文档相似性，如文本搜索的上下文？那么Solr将适合该法案。它是一个开源的企业搜索平台，具有文本搜索所需的所有功能，包括“更像这样”，可以获取文本相似的n个文档。

您可能感兴趣的一些相关功能：

答案 2 :(得分：1)

平台 - Linux（主要是首选）

工具 - 打开NLP，Lucene，Solr（文本搜索），Mahout，Matlab TMG（不提前等级）

语言 - R（我更喜欢），Python + SciPy