应用错误收集

我想建立一个基于多个指标识别物种的模型。问题是，神经网络（通常）接收向量，我的指标并不总是很容易用数字表示。例如，其中一个指标不仅仅是物种是否会采取某些行动（例如，如果行动的本质，那就是“0”或“1”，或者介于两者之间的任何行为。允许），但有时，执行的那些动作的顺序。我希望系统能够根据这些指标来决定和分类物种。没有可能的课程，而是很多指标。培训数据的数量不是问题，我可以尽可能多地获得。我应该考虑哪些机器学习技巧？也许一些特殊的神经网络会做什么？或者可能是完全不同的东西。

如果将一系列操作视为字符串，则使用“执行操作A”等功能类似于unigram model。如果你想要考虑行动的顺序，你应该添加bigrams，trigrams等。

但是，这会破坏你的功能空间。例如，如果您有M个可能的操作，则会有M (M-1) / 2个双字母组。一般来说，有O(M^k) k-gram。这导致以下问题：

您拥有的功能越多 - 应用某些方法就越困难。例如，许多模型都受curse of dimensionality
您拥有的功能越多 - 获取有意义的关系所需的数据就越多。

这只是解决问题的一种方法。可能还有其他人。例如，如果您知道有一组参数Θ，它以已知（至少近似）的方式控制动作生成过程，您可以构建一个单独的模型来首先推断它们，然后使用Θ作为特征。

为数据提供合理的数字表示的过程称为feature engineering。完成后，您可以使用任何机器学习算法。

哪种机器学习模型适用于以下情况

1 个答案: