考虑具有以下结构的数据库:
<Age> <Gender> <Field1> <Field2> <Field3> <Field4> <Field#>
每行的某些字段可能为零,其他字段可能不为零,表示个人使用此类字段的次数 - 每行可使用多个字段。
例如,将DB视为:
10 M 10 0 5 0 1
5 M 7 1 6 0 2
10 M 6 1 4 1 0
....
所以可以说,10岁以上的男性和男性的模式将是第一个和第三个最具代表性的领域。
我不确定我的解释是否有意义。这可以实现吗?是否存在针对此类问题的算法/ R包?
答案 0 :(得分:0)
我想到的是子集。如果我正确理解你的问题。 查找子集,我不肯定我的代码是正确的......
df [(df $ Age = 10&amp; df $ Gender = M),]