应用错误收集

我想使用k-means聚类（机器学习）来聚类solr lucene中的文档。文档通常包含许多字段，一些是文本字段，一些是用于执行地理空间距离的位置（纬度和长度）。 Solr提供了一种基于索引中的特定字段（包括地理空间字段（使用solr查询表示））查找两个文档之间的分数（距离）的方法。有没有办法利用这个“自定距离”进行k-means算法？

只想稍微详细说明“自定义距离”，通常给出“尺寸1”的X值，并且在相同“尺寸1”的另一个文档中有类似的数值，我们找到欧氏距离。

但是，在此solr用例中，通过使用给定文档集的solr相关性得分，即时获取文档之间的距离。这相当于自定义距离。是否有任何可以帮助的工具或方法？

我可以使用R或mahout或octave来做这件事吗？

我知道我们可以从solr导出术语向量并使用mahout相同，但这似乎需要导出，并且做同样的事情，solr再次在mahout得分。同样，使用solr查询获得距离的地理空间和优势也将丢失。

编辑：solr carrot2似乎没有削减，因为它更适合搜索结果（＆lt; 1K结果）

Solr索引中的文档聚类（具有自定义距离）

1 个答案: