标签: data-mining discretization
只要我知道离散化问题或多或少有两个方法:选择间隔的数量或选择间隔的熵。在第一种情况下,从区间派生的类将包含相同数量的正数和负数示例。在第二种算法中,尝试使正例与负例之间的差异最大化。
是否有一个离散化算法(如果可能的话,用python或R实现)可以选择间隔的数量,然后该算法尝试找到那些在每个间隔中最大化pos / neg示例的差异的切点? / p>