我在R中有数据集,其中包含2个组good
和bad
。 group good包含具有较长生命周期的用户和不良用户具有较短的生命周期。
因此good
包含game_id
和game_played
。例如good$game_id==1
(游戏1)已播放good$game_played==12.5
小时。
我想调查一下好坏之间是否存在差异,看看哪个game_id能够区分好坏。
我有20个game_id,因此我不需要使用主成分分析来减少game_id。如何进行分析以查看某些game_id是否会使good
和bad
之间产生差异?
所以在R中我们得到good
这样的输出:
game_id game_played
6 18.3
14 2.1
4 0.6
1 1.0
2 1.4
3 0.1
5 0.4
7 1.2
8 1.2
9 3.1
10 1.7
11 11.6
12 0.2
13 5.4
15 4.3
16 12.4
17 8.2
18 7.0
19 3.4
20 4.6
其中game_id
是游戏的名称,game_played
是游戏在数据good
中播放的小时数。对于bad
,我们有类似的输出和不同的值。