我有一个.csv格式的表,其中包含以下列:
recipe, defect, material1, material2, material3, ..., material122
注意:同一配方可能存在多个缺陷。
This is how my train table looks like.它包含124列和近90.000行。
现在,我需要使用 material1,material2,material3,...,material122 作为输入并使用 defect 作为输出来训练一些模型。例如,让我们从文件中提取2-15行:
given input: [0, 0, 0.898, 0.062, 0.039, 0, 0, ..., 0, 0] // ratios of materials for recipe 1701192
given output: [149, 146, 148, 90, 89, ..., 59, 71, 63] // defects found for recipe 1701192
我在这里看到的主要问题是相同的食谱对应于不同的缺陷。此外,我需要在另一个文件中给出的测试数据集中预测多个缺陷。
This is how the test dataset looks like.它包括123列和仅8400行。请注意,没有关于缺陷的信息-我需要预测它们。
不幸的是,我不知道允许对某些属性组合进行多种预测的模型。你能推荐什么吗?也可以是神经网络。
答案 0 :(得分:0)
可以做到这一点的一种方法是进行多元回归。如果您知道将要发生的所有缺陷类型(类别),则可以将它们作为“ n”因变量,然后对数据进行回归。 运行回归之前,您应该做的一件事是标准化或标准化输入数据(如果尚未完成的话)。如果您所有的输出变量都彼此独立,那么您还可以在模型中对每个变量进行单独的分析。