数据挖掘,机器学习:使用Logit点击预测

时间:2014-06-30 06:45:00

标签: machine-learning data-mining

我是一个ml noob。我有一个预测点击概率的任务,给出用户信息,如城市,州,操作系统,操作系列,设备,浏览器家庭浏览器版本,城市等。 我被推荐尝试logit,因为logit似乎也是MS和Google正在使用的。 我有一些关于逻辑回归的问题,如:

Click and non click是一个非常非常不平衡的类,简单的glm预测看起来不太好。如何使数据通过这个?

我拥有的所有变量都是绝对的,设备和城市之类的东西可能很多。此外,某些设备或某些城市的出现频率可能非常低。那么如何处理我能说的是一个非常随机的各种分类变量?

我们获得的变量之一是设备ID。这是一个非常独特的功能,可以转换为用户的身份。如何在logit中使用它,还是应该在基于用户身份的完全不同的模型中使用它?

0 个答案:

没有答案