应用错误收集

计算高维数据相似性的最有效方法

时间：2014-12-02 13:29:33

标签： scikit-learn data-mining similarity nearest-neighbor

我有一个大的用户兴趣列表（＆gt; 10k）。每个列表都相当长并且包含一些用户兴趣，例如[＆＃39;足球＆＃39;，＆＃39;拳击＆＃39;，＆＃39;电影＆＃39; ..]，因用户而异。因此数据非常高维。

现在，我想计算每个列表之间的成对相似性。实际上，具体来说，对于某个列表，我想得到n个最相似的列表，其中n是任意的。我为此使用了scikit，到目前为止，我只是在对列表进行矢量化并计算每个列表之间的余弦相似度。可以理解的是，这似乎很慢，并且不能很好地扩展到大而稀疏的数据集。使用像kd-Tree或Ball-Tree这样的东西会更好吗？

1 个答案:

答案 0 :(得分：0)

稀疏数据和余弦的最有效方法是反转列表索引。

想想一个文本搜索引擎。它完全符合您的需求。

在SQL中计算运行价值的最有效方法
通过字符串相似性将搜索结果分组的最有效方法
计算250k列表的成对相似性的最有效方法
计算高维数据相似性的最有效方法
Javascript：使用2维数组的最有效方法
构建相似性矩阵的最有效方法
计算多项式的最有效方法
计算数据集第99百分位数的最有效方法
计算托管值的最有效方法
计算自定义距离矩阵的最有效方法

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？