如何将高基数分类特征转化为用于预测性机器学习模型的数值?

时间:2019-09-17 13:31:40

标签: python machine-learning data-science data-cleaning data-processing

我有两列具有较高的基本分类值,一列(area_id)具有21878个唯一值,另一列具有(page_entry)800个唯一值。我正在建立一个预测性ML模型来预测网页的点击率。

列信息: area_id:会话期间访问过的所有位置。 (具有网页不同区域的位置代码编号)

page_entry:描述会话的登录页面。

除了one_hot编码之外,如何将这两列更改为数字?

谢谢。

1 个答案:

答案 0 :(得分:0)

一种方法可能是使用业务规则将类别级别分组到较小的存储桶中。就功能area_id而言,您可以简单地根据其地理位置将它们分组,例如,来自单个地区的所有area_ids(或其他任何聚合级别)都将由单个id。同样,对于page_entry,您可以根据某些属性(例如体育,旅行等网页的性质)对相似的页面进行分组。通过这种方式,您可以显着减小变量的数字维度。

希望这会有所帮助!