我有两列具有较高的基本分类值,一列(area_id)具有21878个唯一值,另一列具有(page_entry)800个唯一值。我正在建立一个预测性ML模型来预测网页的点击率。
列信息: area_id:会话期间访问过的所有位置。 (具有网页不同区域的位置代码编号)
page_entry:描述会话的登录页面。
除了one_hot编码之外,如何将这两列更改为数字?
谢谢。
答案 0 :(得分:0)
一种方法可能是使用业务规则将类别级别分组到较小的存储桶中。就功能area_id
而言,您可以简单地根据其地理位置将它们分组,例如,来自单个地区的所有area_ids
(或其他任何聚合级别)都将由单个id
。同样,对于page_entry
,您可以根据某些属性(例如体育,旅行等网页的性质)对相似的页面进行分组。通过这种方式,您可以显着减小变量的数字维度。
希望这会有所帮助!