应用错误收集

我知道标题有点大，但我想不出更好的标题。请让我先解释一下情况：

通常，当您进行真实世界观察时，您会将它们转码为变量。像变量=性别，男性== 0，女性== 1等等。所以你只需要考虑你可以使用的规模类型（序数，公制等）。

在我的“特殊”情况下，我处理某事。类似于鸡尾酒（让谈话更有趣:-)）每个鸡尾酒（=观察）确实有不同的成分，如杜松子酒，橙汁等，你也有不同类型的成分，如果汁和酒。

现在我想要计算不同鸡尾酒之间的相似性，所以我为每种成分创建了一个变量并按类型对它们进行了分类，因此变量1-20是液体，21-30是果汁。每个变量都是二进制编码（1/0）。因此，当我看到结果时，我会得到一种每种鸡尾酒的“数字指纹”。

示例：

鸡尾酒A = 1 0 0 1 1 0鸡尾酒B = 0 0 0 1 0 0

现在我可以使用SVM等不同的技术来分析相似之处和差异。

问题：

变量对应于不同的组（酒类等），因此尽管两种鸡尾酒在它们所含的酒类型方面有所不同，但它们的共同之处可能是它们使用相同种类的酒和/或相同量的酒。烈酒。如何将这些信息实现到给定的结构中，我该如何加权呢？第二个问题是关于群体的边界：

示例：

变量=橙汁

变量=苹果汁

variable =威士忌

variable = gin

现在我想要实现同一组内的变化并不像组之间的差异一样糟糕，所以当你将其绘制为干线图时，你会注意到var2向左偏离是向内移动而右向离开群组。因此，两个鸡尾酒的叠加应该类似于巨大的差异。

示例：

  鸡尾酒A = 0 1 0 1
     鸡尾酒B = 1 0 0 1
     鸡尾酒C = 0 0 1 1

所以我想确保我的系统识别鸡尾酒A + B比A + C更相似

对我有什么建议吗？非常感谢你！