应用错误收集

返回Vector空间模型中表示的类似文档的算法

时间：2011-06-21 15:37:02

标签： cluster-analysis document k-means tf-idf

我有一个包含大约30,000个文档的tf-idf向量的数据库。

我想为给定的文档返回一组类似的文档 - 大约4个左右。

我考虑过在数据上实现K-Means（聚类算法）（具有余弦相似性），但由于存在很多不确定因素，我不知道它是否是最好的选择：我不知道该把什么放入我的初始集群，我不知道要创建多少个集群，我担心集群会太不平衡，我不确定结果质量会不会好等等。

非常感谢有经验的用户提供的任何建议和帮助。

谢谢，

凯蒂

2 个答案:

答案 0 :(得分：0)

我想为给定的文档返回一组类似的文档 - 大约4个左右。

然后不要做k-means。只需按照tf-idf相似性返回四个最接近的文档，就像任何搜索引擎一样。您可以将其实现为k最近邻搜索，或者通过安装搜索引擎库并将初始文档用作查询来更轻松地实现。想到Lucene。

答案 1 :(得分：0)

如果我理解，你

从较大的数据库读取30k记录到缓存文件/到内存
余弦相似度，10个术语* 30k记录 - ＆gt;最佳4。

你能分别估计这些阶段的运行时间吗？

读取或缓存：这种情况经常发生， 30k向量总共有多大？
10 * 30k乘以 - 在您的c / java / ...或某些不透明的数据库中添加？在c或java中，应该采用＆lt; 1秒。

一般来说，做一些背后的估计在获得幻想之前。

（顺便说一下，我发现在st-::ss_sort中，最好的4比直接c更快更简单;因人而异。）

相关问题

在python脚本中检测类似文档的算法

聚类巨大的矢量空间

返回Vector空间模型中表示的类似文档的算法

代表在向量空间模型中的文档

用平面向量表示的网格扫描（遍历）

矢量空间模型介绍

在Python中删除类似的文档

ANN，基于向量空间的最相似结果

向量空间模型中的相似性度量

如何将类似文档转换为TFIDF值向量在向量空间中查找

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？