我有尝试分析的日志操作。为了进行分析,我想了解用户是处于页面/导航模式还是测验模式(确定哪种操作更为普遍)。模式由下图所示的操作频率给出。
我想找到-如果数据中存在-阶段发生变化时的边界。当然总会有一些离群值(例如,考虑图中1452的测验点)。
我为此尝试了抽空休息:红色是基于导航点的休息,蓝色是基于测验点的休息。我必须将固定数量的垃圾箱设置为3。因此,这对于我的问题似乎不太满意。
我也考虑过 KDE ,但在那里我也不知道如何执行拆分。
有什么方法可以拆分上述数据,告诉我在2011年至2049年之间的某个地方(即导航的最后一点和测验的第一点),相位发生了变化,并且在4189和4199之间(测验的最后一点和导航的第一点)?
我正在使用Python进行数据分析(以及pandas
,numpy
等)。
答案 0 :(得分:1)
使用KDE。但是请少考虑KMeans(“拆分”),而多考虑密度。
如果状态A的密度较大,那么用户处于模式A?
所以只比较那里的密度。尝试绘制相同多数密度的间隔。