我的数据集包含的功能(如果存在)可以包含其他功能。举个例子:
Feature A: 0/1
Feature B: doesn't exist if A = 0, else: 1/-1
Feature C: doesn't exist if A = 0, else: 1/-1
这些功能并非缺席,如果"功能A"它们根本没有意义。设置为0,因此我无法真正使用数据插补。在我的数据集中集成这些功能的最佳方法是什么?这些信息很有价值,如果可能的话我不想丢弃它。
答案 0 :(得分:0)
如果您正在使用线性模型(如线性SVM),则只需为此功能添加“0”即可。虽然-1和+1值导致使用由模型分配的特定权重,但使用“0”表示它将忽略权重。一旦你考虑内核空间就变得复杂得多,我认为你不能为这样的问题做一个简单的解决方案。