我是文本挖掘领域的乞丐。 我需要对文档相似性进行研究。我的目标是比较两个文档,然后根据数字提供它们之间的相似性。我已经阅读了很多关于此的理论。我打算从余弦相似性开始
你们有没有人帮我解决这些基本问题: 1.什么平台? (窗口/ Linux)的 2.什么工具(人们谈论weka / mahout / hadoop) - 我不知道该使用什么 什么语言? 有些问题可能听起来很荒谬,但我必须从头开始,我需要一些帮助
答案 0 :(得分:2)
对于软件,我强烈推荐RapidMiner,您可以从http://rapid-i.com获取。一些快速的专业人士:
根据我的经验,数据挖掘需要一些真正的规则来实现理想的结果。 RapidMiner应该提供帮助。
答案 1 :(得分:1)
文档相似性,如文本搜索的上下文?那么Solr将适合该法案。它是一个开源的企业搜索平台,具有文本搜索所需的所有功能,包括“更像这样”,可以获取文本相似的n个文档。
您可能感兴趣的一些相关功能:
答案 2 :(得分:1)
平台 - Linux(主要是首选)
工具 - 打开NLP,Lucene,Solr(文本搜索),Mahout,Matlab TMG(不提前等级)
语言 - R(我更喜欢),Python + SciPy