我正在尝试为我在scikit中构建的Naive Bayes模型构建我自己的pmml导出器。在阅读PMML文档时,似乎对于每个特征向量,如果它是离散的,则可以根据计数数据输出模型,如果是连续的,则可以作为高斯/泊松分布输出模型。但我的scikit学习模型的系数是根据特征的经验对数概率,即p(y | x_i)。是否可以根据这些概率而不是计数来指定贝叶斯输入参数?
答案 0 :(得分:1)
由于Naive Bayes模型的PMML表示通过" PairCounts"来实现表示联合概率。元素,可以简单地用概率输出(而不是对数概率)替换该比率。由于最终概率是标准化的,因此差异并不重要。如果要求涉及大量为0的可能性,那么"阈值"模型的属性可用于设置此类概率的默认值。