如何为不同的观察创建数字指纹?

时间:2013-12-29 10:12:13

标签: variables design-patterns statistics similarity

我知道标题有点大,但我想不出更好的标题。请让我先解释一下情况:

通常,当您进行真实世界观察时,您会将它们转码为变量。像变量=性别,男性== 0,女性== 1等等。所以你只需要考虑你可以使用的规模类型(序数,公制等)。

在我的“特殊”情况下,我处理某事。类似于鸡尾酒(让谈话更有趣:-)) 每个鸡尾酒(=观察)确实有不同的成分,如杜松子酒,橙汁等,你也有不同类型的成分,如果汁和酒。

现在我想要计算不同鸡尾酒之间的相似性,所以我为每种成分创建了一个变量并按类型对它们进行了分类,因此变量1-20是液体,21-30是果汁。每个变量都是二进制编码(1/0)。因此,当我看到结果时,我会得到一种每种鸡尾酒的“数字指纹”。

示例:

  鸡尾酒A = 1 0 0 1 1 0鸡尾酒B = 0 0 0 1 0 0

现在我可以使用SVM等不同的技术来分析相似之处和差异。

问题:

变量对应于不同的组(酒类等),因此尽管两种鸡尾酒在它们所含的酒类型方面有所不同,但它们的共同之处可能是它们使用相同种类的酒和/或相同量的酒。烈酒。如何将这些信息实现到给定的结构中,我该如何加权呢? 第二个问题是关于群体的边界:

示例:

  
      
  1. 变量=橙汁
  2.   
  3. 变量=苹果汁
  4.   
  5. variable =威士忌
  6.   
  7. variable = gin
  8.   

现在我想要实现同一组内的变化并不像组之间的差异一样糟糕,所以当你将其绘制为干线图时,你会注意到var2向左偏离是向内移动而右向离开群组。因此,两个鸡尾酒的叠加应该类似于巨大的差异。

示例:

  鸡尾酒A = 0 1 0 1

     鸡尾酒B = 1 0 0 1

     鸡尾酒C = 0 0 1 1

所以我想确保我的系统识别鸡尾酒A + B比A + C更相似

对我有什么建议吗?非常感谢你!

0 个答案:

没有答案