假设有一个统计数据的数据集,其中包含许多输入列和一个输出列。预测变量表征了一些重复的特定过程,因此一个数据行对应于该过程的一个时刻。对于这些过程特征,顺序和持续时间很重要。其中一些可能根本不存在,其中一些是重复的,但速度或参数不同。
让我们说我们的流程是名称P,它可以有很多子部分,它们共同形成了流程。让我们说一旦这个过程有N个子过程:
在子流程之后发生下一个子流程B:
...
... N.子过程N。
因此,每个进程中可能有1到N个子进程,即每个数据行。子进程的数量可能因行而异。这是关于输入数据。
至于输出 - 这里最简单的输出是二进制 - 成功或失败,但实际上它将是从0到正无穷大的正数。此数字表示流程成功完成的时间。如果输出的值是正无穷大 - 则意味着该过程未能成功。
非常重要的是,如果我们选择输出为二进制的最简单的情况 - 在统计数据集中,将会有数据行在输出中出现故障。目标是找到测试预测值的值应该等于的假设参数,以使过程成功。
例如,在学习之后,我们应该能够告诉哪些是最能处理成功的具体通用输入参数。这是最简单的二进制输出案例。
然而,在现实生活中,我们将得到表示过程成功完成时间的输出,以及+无穷大 - 如果失败。所以这里的目标是相同的 - 让流程成功或尽可能接近成功。目标是生成我们将来可能使用的测试输入,以防止输出等于+无穷大。
目标最大值是,在提供目标时间的情况下,找到输入的确切值,这些值将使过程成功完成,尽可能接近给定时间。在这里,我们应该期望预测子进程的枚举,它们的顺序以及每个子进程的值。
在这个问题中,我想,输出将起到输入的作用,输入将起到输出的作用。
解决这些问题的方法是什么?如何处理可变数量的特征以及如何处理每个数据行中可能不同的顺序?
我是机器学习的新手,非常感谢解决类似问题的具体建议或例子。
欢迎任何帮助和建议!