我有一个不寻常的回归问题,我正试图融入vowpal wabbit。我正在尝试学习一组回归量 {r_m(x)} ,它们在数据集 {(x_n,h_n [m])} 上训练n = 1到n = N,其中 m 索引 M 维度。这基本上意味着存在 M 单独的回归问题。
我想知道是否可以将所有 M 问题合并到1中,方法是将每个问题都放到自己的命名空间中。例如。在.vw培训文件中,我将有以下内容:
h_1[m=0] |firstnamespace x_1_features
h_2[m=0] |firstnamespace x_2_features
... |... ...
h_N[m=0] |firstnamespace x_N_features
----------------------------------------------------------------
h_1[m=1] |secondnamespace x_1_features
h_2[m=1] |secondnamespace x_2_features
... |... ...
h_N[m=1] |secondnamespace x_N_features
----------------------------------------------------------------
h_1[m=M] |lastnamespace x_1_features
h_2[m=M] |lastnamespace x_2_features
... |... ...
h_N[m=M] |lastnamespace x_N_features
然后我可以执行
vw -d Train.vw -f Train.model -c --loss_function squared
--invert_hash model_readable.txt
并获取每个命名空间的回归权重。
我知道这种策略类似于将多标签分类问题转换/减少为多个二进制分类问题:this link。我想知道是否可以将相同的问题应用于回归问题,而维度之间没有任何串扰,即vowpal wabbit独立处理每个命名空间。
如果需要注意,我有 M = 400, N = 4e6,并且数据维度的数量等于唯一字标记的数量。整个文件集......