我对这个论坛非常陌生,并且是第一次问一个问题。我正在处理一个项目的电子商务数据集-该数据集包括以下两个变量-访问的页面数(0/1)和 退出(数值var,值为-1,0,2,3 ......),表示唯一ID退出特定页面的次数。有6个此类信息页面。
页面出口中的-1是没有页面访问的出口。但是,我正在使用页面出口来计算其他指标,例如出口率,而且我不确定如何在不丢失信息或以其他方式放置/删除-1的情况下。 我不能使其为0-bcos意味着没有页面退出/访客停留在页面上。即使我删除并创建了一个分类变量-表示没有访问,已停留,退出了..我仍然不知道用-1代替什么。
我该怎么办...我需要在这里进行任何功能设计吗?
答案 0 :(得分:0)
创建一个功能来表示用户是否从未访问过该页面(二进制形式1/0),然后只显示 0-n 中的一列退出(如果退出为-1,则为1,否则为0)。创建额外的列后,我会将退出从-1设置为0。
但是,我认为您需要更多地考虑-1的含义(或提供更多信息),当预期的算法将运行时,当前是否有人还在页面上?您的数据是否存在于多个页面中,并且-1表示他们从未访问过该页面?