我对机器学习和决策树有疑问。我从事计算生物学(长RNA二级结构预测)。
我有一个程序可以预测预测的RNA二级结构的准确性。程序的输入参数是
我想知道,对于长度为(S)的给定RNA序列,哪个L,G,C组合给出最大准确度。
我有50个序列长度为S的序列文件的训练数据集,对于每个这些序列文件,已知L,G,C输入参数组合,它们提供最大精度输出。
有没有办法让我们知道使用哪个特定的L,G和C参数,以便找出所有L,G和C范围值的最大精度?
答案 0 :(得分:1)
你的问题陈述不是很清楚。
您需要一种有监督的学习算法,该算法可以从您的50个训练样例中学习并创建一个预测程序,该程序将“序列文件”作为输入,并为该序列文件生成L,G和C的输出值。
这是对的吗?
监督学习算法有很多选择。序列文件中的数据究竟是什么?它是实数的向量吗?它有什么结构?如果您必须为序列文件“手动”确定L,G和C,您可以这样做吗?你会怎么做?
答案 1 :(得分:1)
我认为您希望在三个参数(L,G,C)中找到一个“最大影响因素”,这不是一个非常常见的要求,但我认为一些想法可能对您有所帮助。
您可以构建几个不同的决策树,它们使用三个参数(一个树),两个参数(三个树,因为每次从三个参数中选择两个),只有一个参数(当然,三个树)。因此,您可以有七个决策树,然后您可以将精确度输出与它们进行比较,这样您就可以知道不同参数对最终预测的贡献。
您可以计算这三个参数的相对矩阵和最终预测,然后您就知道它们对最终结果的贡献权重。
PS.You要求(只选择一个因素使机器学习)在一般情况下不是一个好主意,因为预测的不同因素的贡献通常不是线性的,即知道,在输入向量中结合更多因素机器学习通常会给你带来更好的结果。
祝你好运!