标签: regression linear-regression percentile
我正在考虑使用线性回归来预测客户的日志(支出)的问题。
我正在考虑使用什么功能作为输入,并想知道是否可以使用变量的百分位作为输入。
例如,我可以将公司收入用作输入。我想知道的是,我可以使用公司收入百分位吗?
另一个例子是分类行业分类器(NAICS) - 如果我太看每个NAICS代码的中位数花费然后将每个NAICS代码分配给'NAICS Percentile',那么这是否是我可以使用的有效解释变量?
想知道使用百分位时是否有任何问题需要注意?它在某些方面等同于一种特征缩放吗?