我在研究中遇到了数据源的巨大挑战。基本上我有六种类型的事件被注册用于后期处理。此事件与过程中使用的一种离子以及设备上发生事件的位置有关。图1显示了每种偶数的平均曲线。
图片1
我的目标是对寻找此曲线的离子类型进行分类,使用从每条曲线中提取的四个参数来研究曲线I peak value [max value]
,middle length[red line]
,Rising time[green]
和Base length [ blue]
,如图2所示。
图片2
我使用两种类型的算法尝试对曲线K-means
和LDA
进行分类,但此时的结果并不清楚,我没有好的聚类和分类器,我运行SOM
算法,得到了更好的结果,但不是非常令人满意。我相信参数不是很好的选择。我怎样才能有良好的参数指示?如何为分类器选择正确的参数?在这种情况下有好的做法吗?
答案 0 :(得分:0)
一种方法是设计一个比较两件事的实验。例如,您想知道参数是否良好。尝试一组不同的四个参数,例如四个固定时间间隔的振幅(例如20ms,30ms,40ms和50ms处的振幅)。当您将原始参数集与新集合进行比较时,您将得到的结果显示,对于那些测试条件,一种方法优于另一种方式。也许一组为分类任务提供了另一组相关信息。
这假设您有一些已知分类的数据。最好使用与测试集分开的不同训练集。
或者,如果你的实验只是kmeans vs LDA,哪一种效果更好?好多少?你知道为什么吗?
最后,您将进行大量实验,每个实验都会比较两件事。它可能会帮助您描述您的发现。