在不进行One Hot编码的情况下将分类数据转换为数值数据

时间:2019-07-02 06:24:39

标签: python data-science probability categorical-data one-hot-encoding

我有一个数据矩阵X,它的列或特征名称为Country。在此功能中,列出了 10个不同的国家/地区。 “国家/地区”列下有2万行,每行有1个国家/地区。输出为01的二进制分类问题。

我想将此国家/地区功能转换为数值值,而不是通过一种热编码方式。

要遵循的方法:

  1. 让我们假设印度在country列中使用0类标签出现5次,使用1类标签出现3次,而USA在0类中出现0次使用7类出现5次,使用1类标记出现5次。
  2. 现在转换为2个维度,分别为Country_0和Country_1。
Line-1  ,    Row no.  , Country  ,Country_0 , Country_1   ,  Class_labels
Line 2  ,    1st row  ,  india  ,    5/8    ,   3/8       ,    0
Line 3  ,    2nd row  ,  usa    ,    7/12   ,   5/12      ,    1

如何将其转换为具有概率值的2维。 我以表格格式编写了第一行,第二行和第三行。

0 个答案:

没有答案