我们正在使用DNN(使用Keras和Tensorflow)根据某些数据y
预测值X
,这非常有用。现在我们想将其扩展到不仅预测值y
,还预测它以百分位形式的分布。
一个例子:说我们正在处理房价。一个特定的房子(数据X’
)目前售价为100万,所以y(X’) = 1 000 000
,但我们知道这是一个很高的价格。我们估计所有可比房屋(同一房屋X’
)的90%销售更便宜,因此y(X’)
的第90百分位数为100万。
我们如何使用我们的数据集(X,y)
来训练DNN来预测/估计y(X')
的第90个百分位是100万?
在某种程度上,这样的网络不仅可以了解哪些值可以最小化成本函数,还可以了解输入的噪声有多大。再举一个例子,假设我们有一个X'
,房价在10万美元不变(例如,由于一些国营计划建造了数千个完全相同的房屋,所有房屋的价格都在100 000)。我希望网络不仅可以学习100 000的价值,而且还有一个非常精确的预测。
我认为如果我们可以预测标准偏差,我们可以计算出合理的百分位数分布,所以标准差可能就足够了。