制造模糊的数据集

时间:2017-02-01 13:27:05

标签: probability mathematical-optimization ambiguous estimation hyperparameters

我希望这样的问题属于这里。 所以这就是我现在面临的问题: 我从制造过程中收集了一些数据(传感器数据,工艺参数等),并且对于离开生产线的每个部件,我都知道它是否是废料。 因此,对于每个部分,我都有其过程数据和质量(0:好1:坏)

我的目标是优化制造过程,即找到最佳工艺参数以生产最少量的废料。

到目前为止我做了什么:我尝试了不同的分类算法(随机森林,SVM,神经网络),但没有一个能够达到很好的准确性。 我认为原因是数据非常模糊,即如果我的零件具有相同的工艺参数,其中一些可能是废料,而一些可能是好的。但质量和工艺参数之间肯定存在联系。 我现在想要的是预测一个部分好或坏的“概率”。 Imo我想估计概率密度?我可以和K最近的邻居一起做吗?

1 个答案:

答案 0 :(得分:0)

您可以尝试的步骤是,对于每个参数,估计,其中x是参数值,是好/坏指标变量。

有可能不遵守任何特定的发行版,而且不知道他们采取的价值类型对我来说很难提出建议。

“免费模型”方法,在给定一组n个观察值的情况下,将“离散化”参数x,以便

然后你可以通过

估算pmf

并且类似于“坏”的情况。

每个参数都有后,您可以计算该参数的“好”和“坏”情况之间的相对熵/ KL差异。那两个类之间差异较大的参数是最重要的参数,它们的pmfs有望显示哪些值表示性能不佳。

这当然是假设参数iid,它们实际上可能不是,但是可以通过考虑非独立且相应离散的共参数来执行类似的过程。