如何找到矢量之间的余弦相似度?
我需要找到相似度来衡量两行文本之间的相关性。
例如,我有两个句子,如:
用户界面系统
用户界面机
...和tF-idf之后的各自向量,然后使用LSI进行归一化
[1,0.5]
和[0.5,1]
。
如何衡量这些向量之间的熟悉程度?
答案 0 :(得分:48)
如果你想避免依赖第三方库来完成这么简单的任务,这里有一个普通的Java实现:
public static double cosineSimilarity(double[] vectorA, double[] vectorB) {
double dotProduct = 0.0;
double normA = 0.0;
double normB = 0.0;
for (int i = 0; i < vectorA.length; i++) {
dotProduct += vectorA[i] * vectorB[i];
normA += Math.pow(vectorA[i], 2);
normB += Math.pow(vectorB[i], 2);
}
return dotProduct / (Math.sqrt(normA) * Math.sqrt(normB));
}
请注意,该函数假定两个向量具有相同的长度。您可能希望明确检查它是否安全。
答案 1 :(得分:31)
请查看:http://en.wikipedia.org/wiki/Cosine_similarity。
如果你有矢量A和B。
相似性定义为:
cosine(theta) = A . B / ||A|| ||B||
For a vector A = (a1, a2), ||A|| is defined as sqrt(a1^2 + a2^2)
For vector A = (a1, a2) and B = (b1, b2), A . B is defined as a1 b1 + a2 b2;
So for vector A = (a1, a2) and B = (b1, b2), the cosine similarity is given as:
(a1 b1 + a2 b2) / sqrt(a1^2 + a2^2) sqrt(b1^2 + b2^2)
示例:
A = (1, 0.5), B = (0.5, 1)
cosine(theta) = (0.5 + 0.5) / sqrt(5/4) sqrt(5/4) = 4/5
答案 2 :(得分:20)
public class CosineSimilarity extends AbstractSimilarity {
@Override
protected double computeSimilarity(Matrix sourceDoc, Matrix targetDoc) {
double dotProduct = sourceDoc.arrayTimes(targetDoc).norm1();
double eucledianDist = sourceDoc.normF() * targetDoc.normF();
return dotProduct / eucledianDist;
}
}
我最近为大学的信息检索部门做了一些tf-idf的工作。 我使用了这个使用Jama: Java Matrix Package的余弦相似度方法。
有关完整的源代码,请参阅IR Math with Java : Similarity Measures,这是一个非常好的资源,涵盖了很多不同的相似度测量。
答案 3 :(得分:5)
对于Java中的矩阵代码,我建议使用Colt库。如果你有这个,代码看起来像(没有测试甚至编译):
DoubleMatrix1D a = new DenseDoubleMatrix1D(new double[]{1,0.5}});
DoubleMatrix1D b = new DenseDoubleMatrix1D(new double[]{0.5,1}});
double cosineDistance = a.zDotProduct(b)/Math.sqrt(a.zDotProduct(a)*b.zDotProduct(b))
上述代码也可以更改为使用Blas.dnrm2()
方法之一或Algebra.DEFAULT.norm2()
进行范数计算。完全相同的结果,更具可读性取决于品味。
答案 4 :(得分:2)
我前段时间使用文本挖掘时,我使用的是SimMetrics库,它提供了大量不同的Java指标。如果碰巧需要更多,那么总是需要R and CRAN来查看。
但是,根据维基百科中的描述编写它是相当简单的任务,并且可以是一个很好的练习。
答案 5 :(得分:0)
使用Map(dimension -> magnitude)
进行向量的稀疏表示
这是一个scala版本(你可以在Java 8中做类似的事情)
def cosineSim(vec1:Map[Int,Int],
vec2:Map[Int,Int]): Double ={
val dotProduct:Double = vec1.keySet.intersect(vec2.keySet).toList
.map(dim => vec1(dim) * vec2(dim)).sum
val norm1:Double = vec1.values.map(mag => mag * mag).sum
val norm2:Double = vec2.values.map(mag => mag * mag).sum
return dotProduct / (Math.sqrt(norm1) * Math.sqrt(norm2))
}
答案 6 :(得分:0)
def cosineSimilarity(vectorA: Vector[Double], vectorB: Vector[Double]):Double={
var dotProduct = 0.0
var normA = 0.0
var normB = 0.0
var i = 0
for(i <- vectorA.indices){
dotProduct += vectorA(i) * vectorB(i)
normA += Math.pow(vectorA(i), 2)
normB += Math.pow(vectorB(i), 2)
}
dotProduct / (Math.sqrt(normA) * Math.sqrt(normB))
}
def main(args: Array[String]): Unit = {
val vectorA = Array(1.0,2.0,3.0).toVector
val vectorB = Array(4.0,5.0,6.0).toVector
println(cosineSimilarity(vectorA, vectorA))
println(cosineSimilarity(vectorA, vectorB))
}
scala版本