连续/数字特征的相互信息

时间:2014-04-22 05:50:41

标签: machine-learning feature-selection discretization

我必须为连续/数字特征计算互信息。我想基于此应用特征选择。功能集描述如下:

feature1:可以假设1到10000之间的任何值 feature2:测量在某事物上花费的时间 - 因此可以假定任何值但是整数(大) .... 我有这些功能。

我对应用互信息公式感到困惑。维基百科说集成是必需的连续变量。

在应用MI之前,我是否需要对功能进行离散化?

1 个答案:

答案 0 :(得分:0)

我认为您需要在应用MI之前对功能进行离散化

当在连续变量中应用特征选择的信息增益时,选择分割点以在分离的部分中分割变量的值空间,这需要评估所有可能的分割点以获得该特征的最佳分割点。我认为在功能选择的互信息中是相同的,您可以选择将连续空间离散化为某个离散值,如果值空间平滑,我认为这样做会相同