我的下方是人,他的技能数据已在solr
中编入索引Candidate, Skills
-----------------
1, Java, JSP, Servlet, Spring, Hibernate
2, Java JSP, JDBC
3, Java, JDBC, RMI
4, JDBC, SQL
5, .Net, C#
从上面我想建立与每种技能的术语关系数据以及它们的相关程度,因此以后这些信息可以用于更好的候选搜索任何要求&新技能可以与现有技能恰当地联系起来。
基于研究我发现我需要聚类我的矢量术语可能是mahout或carrot2,但我不知道这怎么可以如何执行。
我相信carrot2在内存集群中做了所以缩放可能是问题因此我选择mahout的首选方案。
答案 0 :(得分:2)
Mahout是分布式和可扩展机器学习算法的库。因此,如果您的数据大小小于500Gb并且您不希望使用多于1台机器 - Carrot2或Weka或python scikit + nltk是正确的选择。否则Mahout。第二点是Mahout可以使用Solr矢量“开箱即用”。
答案 1 :(得分:0)
Carrot2适用于自然文本(如网页,新闻文章)的聚类,而您的数据实际上是一组符号。因此,Carrot2对此任务无济于事。 Mahout确实有许多适合您数据的聚类算法,您也可以尝试Weka,它附带一套全面的机器学习工具和用户界面。