预测概率

时间:2016-02-12 12:18:18

标签: machine-learning probability prediction

我有时间序列数据,包含矢量

v=(x_1,…, x_n) 

二进制分类变量和四种结果的概率

p_1, p_2, p_3, p_4. 

给定一个新的分类变量向量,我想预测概率

p_1,…,p_4

概率与

非常不平衡
p_1>.99 and p_2, p_3, p_4 < .01.

例如

v_1= (1,0,0,0,1,0,0,0) , p_1=.99, p_2=.005, p_3=.0035, p_4= .0015 
v_2=(0,0,1,0,0,0,0,1), p_1=.99, p_2=.006, p_3=.0035, p_4= .0005
v_3=(0,1,0,0,1,1,1,0), p_1=.99, p_2=.005, p_3=.003, p_4= .002
v_4=(0,0,1,0,1,0,0,1), p_1=.99, p_2=.0075, p_3=.002, p_4= .0005

给出一个新的载体

v_5= (0,0,1,0,1,1,0,0) 

我想预测

p_1, p_2, p_3, p_4.

我还应该注意,新的矢量可以与输入矢量之一相同,即

v_5=(0,0,1,0,1,0,0,1)= v_4.

我最初的方法是把它变成4个回归问题。

第一个预测p_1,第二个预测p_2,第三个预测p_3,第四个预测p_4。这个问题是我需要

p_1+p_2+p_3+p_4=1 

我不是在分类,但我也应该担心不平衡的概率。任何想法都会受到欢迎。

1 个答案:

答案 0 :(得分:1)

您认为将此视为多重问题+最终规范化的建议有一定意义,但在许多情况下已知它存在问题(例如,请参阅masking的问题)。

你在这里描述的是multiclass (soft) classification,并且有很多已知的技术可以做到这一点。您没有指定您正在使用的语言/工具/库,或者您是否计划自己滚动(这只是出于教学目的而有意义)。我建议从Linear Discriminant Analysis开始,这很容易理解和实施,并且 - 尽管有很强的假设 - 已知在实践中经常运作良好(参见the classical book by Hastie & Tibshirani)。

无论您用于软二进制分类的基础算法(例如,LDA与否),将聚合输入转换为标记输入并不是非常困难。

考虑例如实例

v_1= (1,0,0,0,1,0,0,0) , p_1=.99, p_2=.005, p_3=.0035, p_4= .0015 

如果您的分类器支持实例权重,请为其提供4个实例,标记为1,2,...,权重由 p_1 p_2 ,...组成,分别

如果它不支持实例权重,只需模拟大数法则会发生什么:从此输入生成一些大的 n 实例;对于每个这样的新输入,选择一个与其概率成比例的标签。