Question

我有一个.csv格式的表，其中包含以下列：

recipe, defect, material1, material2, material3, ..., material122

recipe 是一种或多种材料的组合的ID（例如， recipe_1 对应于 material1 + material3 + material28 ，而< em> recipe_2 对应于 material3 + material5 ）。
缺陷是一个ID，代表在使用某些食谱制造的某些产品中发现的缺陷。
materialN 是某些材料的重量。但是，我使用材料的比率而不是它们的权重（例如，我说 material1 = 0.25 和 material2 = 0.75 而不是说 material1 = 5 kg 和 material2 = 15 kg 对于给定的 recipe = material1 + material2 ）。

注意：同一配方可能存在多个缺陷。

This is how my train table looks like.它包含124列和近90.000行。

现在，我需要使用 material1，material2，material3，...，material122 作为输入并使用 defect 作为输出来训练一些模型。例如，让我们从文件中提取2-15行：

given input: [0, 0, 0.898, 0.062, 0.039, 0, 0, ..., 0, 0] // ratios of materials for recipe 1701192
given output: [149, 146, 148, 90, 89, ..., 59, 71, 63] // defects found for recipe 1701192

我在这里看到的主要问题是相同的食谱对应于不同的缺陷。此外，我需要在另一个文件中给出的测试数据集中预测多个缺陷。

This is how the test dataset looks like.它包括123列和仅8400行。请注意，没有关于缺陷的信息-我需要预测它们。

不幸的是，我不知道允许对某些属性组合进行多种预测的模型。你能推荐什么吗？也可以是神经网络。

Answer 1

可以做到这一点的一种方法是进行多元回归。如果您知道将要发生的所有缺陷类型（类别），则可以将它们作为“ n”因变量，然后对数据进行回归。运行回归之前，您应该做的一件事是标准化或标准化输入数据（如果尚未完成的话）。如果您所有的输出变量都彼此独立，那么您还可以在模型中对每个变量进行单独的分析。

选择哪种机器学习模型？

1 个答案: