余弦相似度的预处理要求是什么?

时间:2013-02-12 11:13:31

标签: similarity cosine-similarity

余弦相似性的输入是两个向量,表示我想要比较的两个不同的数据。是否需要向量的语义?它可以只是每个文件的字节表示。然后计算每个字节的频率?这有意义吗?或者应该有一个文件的矢量化,其中每个维度不是来自文件的原始数据,而是一些元数据作为每个术语的频率,如果我们代表文本文件或tf-idf编码模型?把它换成另一种形状:为了“正确”,余弦相似性是否要求复杂的数据预处理步骤,或者我可以将其作为输入整数值来表示我的数据的每个字节而不考虑文本或只是频率每个字节的术语?

1 个答案:

答案 0 :(得分:1)

数据的“语义”至关重要。例如,假设您正在比较英文文本文档。对于大型文档,各种字母出现的频率大致相同,因此如果向量的元素表示字母的数量,则无法区分文档。如果向量的元素代表单词的数量,您将获得更好的结果。如果向量的元素代表“词干”词的计数,那就更好了。等

余弦相似性是一种“愚蠢”的统计指标 - 由你来为它提供一些有意义的比较。