我想使用k-means聚类(机器学习)来聚类solr lucene中的文档。文档通常包含许多字段,一些是文本字段,一些是用于执行地理空间距离的位置(纬度和长度)。 Solr提供了一种基于索引中的特定字段(包括地理空间字段(使用solr查询表示))查找两个文档之间的分数(距离)的方法。有没有办法利用这个“自定距离”进行k-means算法?
只想稍微详细说明“自定义距离”,通常给出“尺寸1”的X值,并且在相同“尺寸1”的另一个文档中有类似的数值,我们找到欧氏距离。
但是,在此solr用例中,通过使用给定文档集的solr相关性得分,即时获取文档之间的距离。这相当于自定义距离。是否有任何可以帮助的工具或方法?
我可以使用R或mahout或octave来做这件事吗?
我知道我们可以从solr导出术语向量并使用mahout相同,但这似乎需要导出,并且做同样的事情,solr再次在mahout得分。同样,使用solr查询获得距离的地理空间和优势也将丢失。
编辑:solr carrot2似乎没有削减,因为它更适合搜索结果(< 1K结果)
答案 0 :(得分:1)
您可以使用任何库或自行实现的k-means来根据给定的相似分数进行聚类。