Question

我的下方是人，他的技能数据已在solr

中编入索引

Candidate, Skills
-----------------
1, Java, JSP, Servlet, Spring, Hibernate 
2, Java JSP, JDBC
3, Java, JDBC, RMI
4, JDBC, SQL
5, .Net, C#

从上面我想建立与每种技能的术语关系数据以及它们的相关程度，因此以后这些信息可以用于更好的候选搜索任何要求＆amp;新技能可以与现有技能恰当地联系起来。

基于研究我发现我需要聚类我的矢量术语可能是mahout或carrot2，但我不知道这怎么可以如何执行。

我相信carrot2在内存集群中做了所以缩放可能是问题因此我选择mahout的首选方案。

Answer 1

Mahout是分布式和可扩展机器学习算法的库。因此，如果您的数据大小小于500Gb并且您不希望使用多于1台机器 - Carrot2或Weka或python scikit + nltk是正确的选择。否则Mahout。第二点是Mahout可以使用Solr矢量“开箱即用”。

Answer 2

Carrot2适用于自然文本（如网页，新闻文章）的聚类，而您的数据实际上是一组符号。因此，Carrot2对此任务无济于事。 Mahout确实有许多适合您数据的聚类算法，您也可以尝试Weka，它附带一套全面的机器学习工具和用户界面。