我有一个呼叫中心员工的数据集,它具有以下功能:-
1)EXPERIENCE_IN_DAYs
2)总计_DEVICES
3)总计活动
4)Average_l1_support_time_peractivity_sec
5)Average_L1_SUPPORT_Time_secs_perdevice
6)总通话次数
7)Average_L1_SUPPORT_Time_secs_percall
8)总计查找时间(秒)
9)Average_Total_Look_Up_Time_secs_per_activity
10)平均查询时间/设备时间/秒
11)平均查询时间/通话时间/秒
12)总计闲置时间(秒)
13)Avg_idle_time_per_device
14)Avg_idle_time_per_call
15)Avg_num_device_per_call
16)总持续时间
17)平均处理时间
18)NUMBER_OF_REPEAT_CALLS
19)CALL_FORWARD_COUNT
所有列高度偏斜。 行是唯一员工的记录。
问题陈述:- 基于这些功能,我需要对呼叫中心中的所有员工进行排名。 对于排名,我正在考虑使用以下等式给每位员工打分:-
Agent_Score = A1 *(EXPERIENCE_IN_DAYs)+ A2 *(Total_DEVICES)+ A3 *(Total_Activities)+ .... + A19 *(CALL_FORWARD_COUNT)
其中A1,A2,A3,...,A19是赋予每个特征的权重。
我没有业务专业知识/知识来分配权重,因此必须使用数据来达到目的。
对我来说,这似乎是一个无监督的排名问题。
我认为要开始的步骤:- 1)使用对数转换对数据进行归一化。
2)应用PCA,并针对解释最大方差(特征值> 1)的主成分,找到该主成分上所有特征的单独份额。
3)在我的Agent_Score方程中,将要素在主要组件上的份额指定为该要素的权重。
请根据我的方法提出其他解决方案或改进/缺点。