选择哪种机器学习模型?

时间:2019-11-20 14:44:37

标签: machine-learning neural-network bigdata

我有一个.csv格式的表,其中包含以下列:

recipe, defect, material1, material2, material3, ..., material122
  1. recipe 是一种或多种材料的组合的ID(例如, recipe_1 对应于 material1 + material3 + material28 ,而< em> recipe_2 对应于 material3 + material5 )。
  2. 缺陷是一个ID,代表在使用某些食谱制造的某些产品中发现的缺陷。
  3. materialN 是某些材料的重量。但是,我使用材料的比率而不是它们的权重(例如,我说 material1 = 0.25 material2 = 0.75 而不是说 material1 = 5 kg material2 = 15 kg 对于给定的 recipe = material1 + material2 )。

注意:同一配方可能存在多个缺陷。

This is how my train table looks like.它包含124列和近90.000行。

现在,我需要使用 material1,material2,material3,...,material122 作为输入并使用 defect 作为输出来训练一些模型。例如,让我们从文件中提取2-15行:

given input: [0, 0, 0.898, 0.062, 0.039, 0, 0, ..., 0, 0] // ratios of materials for recipe 1701192
given output: [149, 146, 148, 90, 89, ..., 59, 71, 63] // defects found for recipe 1701192

我在这里看到的主要问题是相同的食谱对应于不同的缺陷。此外,我需要在另一个文件中给出的测试数据集中预测多个缺陷

This is how the test dataset looks like.它包括123列和仅8400行。请注意,没有关于缺陷的信息-我需要预测它们。

不幸的是,我不知道允许对某些属性组合进行多种预测的模型。你能推荐什么吗?也可以是神经网络。

1 个答案:

答案 0 :(得分:0)

可以做到这一点的一种方法是进行多元回归。如果您知道将要发生的所有缺陷类型(类别),则可以将它们作为“ n”因变量,然后对数据进行回归。 运行回归之前,您应该做的一件事是标准化或标准化输入数据(如果尚未完成的话)。如果您所有的输出变量都彼此独立,那么您还可以在模型中对每个变量进行单独的分析。