应用错误收集

时间：2013-04-27 05:06:01

标签： machine-learning decision-tree

我对机器学习和决策树有疑问。我从事计算生物学（长RNA二级结构预测）。

我有一个程序可以预测预测的RNA二级结构的准确性。程序的输入参数是

我想知道，对于长度为（S）的给定RNA序列，哪个L，G，C组合给出最大准确度。

我有50个序列长度为S的序列文件的训练数据集，对于每个这些序列文件，已知L，G，C输入参数组合，它们提供最大精度输出。

有没有办法让我们知道使用哪个特定的L，G和C参数，以便找出所有L，G和C范围值的最大精度？

答案 0 :(得分：1)

你的问题陈述不是很清楚。

您需要一种有监督的学习算法，该算法可以从您的50个训练样例中学习并创建一个预测程序，该程序将“序列文件”作为输入，并为该序列文件生成L，G和C的输出值。

这是对的吗？

监督学习算法有很多选择。序列文件中的数据究竟是什么？它是实数的向量吗？它有什么结构？如果您必须为序列文件“手动”确定L，G和C，您可以这样做吗？你会怎么做？

答案 1 :(得分：1)

我认为您希望在三个参数（L，G，C）中找到一个“最大影响因素”，这不是一个非常常见的要求，但我认为一些想法可能对您有所帮助。

您可以构建几个不同的决策树，它们使用三个参数（一个树），两个参数（三个树，因为每次从三个参数中选择两个），只有一个参数（当然，三个树）。因此，您可以有七个决策树，然后您可以将精确度输出与它们进行比较，这样您就可以知道不同参数对最终预测的贡献。
您可以计算这三个参数的相对矩阵和最终预测，然后您就知道它们对最终结果的贡献权重。

PS.You要求（只选择一个因素使机器学习）在一般情况下不是一个好主意，因为预测的不同因素的贡献通常不是线性的，即知道，在输入向量中结合更多因素机器学习通常会给你带来更好的结果。