我开始进行细分练习,我们希望将具有相似特征的用户归为一组。我们要考虑100多种功能,其中一些很明显,例如年龄和地理位置,但是某些功能具有多种表示方式。
例如,电子邮件响应能力是电子邮件打开和单击的要素。如何确定我们是否应该使用电子邮件打开计数作为两个功能,或者说是“带”来提高电子邮件的响应速度,这是我们为电子邮件打开和点击设定的阈值-例如“无”, “低”,“中”和“高”?数据应该告诉我们这件事吗?还是这是我们应该预先定义的东西?
答案 0 :(得分:0)
预建模特征选择的一种方法是基于用户对数据的解释和用户对数据的了解。这意味着根据用户的直觉手动选择功能。
另一种方法是基于与目标的关联(在这种情况下,不是一种选择-unsupervised learning
),要素之间的关联可以提供对数据的洞察力。高度相关的功能可以组合或删除,以获得更好的效果。
毕竟,没有正确的方法来进行特征选择和特征工程设计。
样本:
您已经提到过,将点击计数归为类别["none", "low", "medium", "high"]
可能会带来更好的结果,因为它降低了复杂性,但是合并宽度由用户定义。