假设您有以下玩具数据,其中每个独特的观察(#set($inputRoot = $input.path('$'))
{
"userId" : "$input.params('userid')"
}
)可以具有多个特征和多个特征。如何转换以下数据框,以便将要素和特征列转换为虚拟变量的稀疏矩阵?最终产品应该是行数等于唯一id
的数量,并且每个级别的特征和特征变量应该有一列,用0&s 39或1&编码#39; S。我相信这种方法称为单热编码。
id
我已经看到稀疏矩阵被喂食公式的例子。但是,我希望最终将set.seed(123)
fakedf <- data.frame(id = sample(seq(1,5,1),10,replace=TRUE),
feature = sample(seq(1,50,1),10,replace=TRUE),
trait = sample(seq(50,100,1),10,replace=TRUE))
与fakedf
fulldf
所以我可以使用。预测建模来获取数据集。