我知道标题有点大,但我想不出更好的标题。请让我先解释一下情况:
通常,当您进行真实世界观察时,您会将它们转码为变量。像变量=性别,男性== 0,女性== 1等等。所以你只需要考虑你可以使用的规模类型(序数,公制等)。
在我的“特殊”情况下,我处理某事。类似于鸡尾酒(让谈话更有趣:-)) 每个鸡尾酒(=观察)确实有不同的成分,如杜松子酒,橙汁等,你也有不同类型的成分,如果汁和酒。
现在我想要计算不同鸡尾酒之间的相似性,所以我为每种成分创建了一个变量并按类型对它们进行了分类,因此变量1-20是液体,21-30是果汁。每个变量都是二进制编码(1/0)。因此,当我看到结果时,我会得到一种每种鸡尾酒的“数字指纹”。
示例:
鸡尾酒A = 1 0 0 1 1 0鸡尾酒B = 0 0 0 1 0 0
现在我可以使用SVM等不同的技术来分析相似之处和差异。
问题:
变量对应于不同的组(酒类等),因此尽管两种鸡尾酒在它们所含的酒类型方面有所不同,但它们的共同之处可能是它们使用相同种类的酒和/或相同量的酒。烈酒。如何将这些信息实现到给定的结构中,我该如何加权呢? 第二个问题是关于群体的边界:
示例:
- 变量=橙汁
- 变量=苹果汁
- variable =威士忌
- variable = gin
醇>
现在我想要实现同一组内的变化并不像组之间的差异一样糟糕,所以当你将其绘制为干线图时,你会注意到var2向左偏离是向内移动而右向离开群组。因此,两个鸡尾酒的叠加应该类似于巨大的差异。
示例:
鸡尾酒A = 0 1 0 1 鸡尾酒B = 1 0 0 1 鸡尾酒C = 0 0 1 1
所以我想确保我的系统识别鸡尾酒A + B比A + C更相似
对我有什么建议吗?非常感谢你!