机器学习,决策树

时间:2013-04-27 05:06:01

标签: machine-learning decision-tree

我对机器学习和决策树有疑问。我从事计算生物学(长RNA二级结构预测)。

我有一个程序可以预测预测的RNA二级结构的准确性。程序的输入参数是

  • 茎长(L) - 值3,4,5,6,7和8
  • 间隙尺寸(G) - 来自0,1,2,3,4,5,6,7和8
  • 的值
  • 块长度(c) - 来自60,70,80,90,100,120,130,140和150
  • 的值

我想知道,对于长度为(S)的给定RNA序列,哪个L,G,C组合给出最大准确度。

我有50个序列长度为S的序列文件的训练数据集,对于每个这些序列文件,已知L,G,C输入参数组合,它们提供最大精度输出。

有没有办法让我们知道使用哪个特定的L,G和C参数,以便找出所有L,G和C范围值的最大精度?

2 个答案:

答案 0 :(得分:1)

你的问题陈述不是很清楚。

您需要一种有监督的学习算法,该算法可以从您的50个训练样例中学习并创建一个预测程序,该程序将“序列文件”作为输入,并为该序列文件生成L,G和C的输出值。

这是对的吗?

监督学习算法有很多选择。序列文件中的数据究竟是什么?它是实数的向量吗?它有什么结构?如果您必须为序列文件“手动”确定L,G和C,您可以这样做吗?你会怎么做?

答案 1 :(得分:1)

我认为您希望在三个参数(L,G,C)中找到一个“最大影响因素”,这不是一个非常常见的要求,但我认为一些想法可能对您有所帮助。

  1. 您可以构建几个不同的决策树,它们使用三个参数(一个树),两个参数(三个树,因为每次从三个参数中选择两个),只有一个参数(当然,三个树)。因此,您可以有七个决策树,然后您可以将精确度输出与它们进行比较,这样您就可以知道不同参数对最终预测的贡献。

  2. 您可以计算这三个参数的相对矩阵和最终预测,然后您就知道它们对最终结果的贡献权重。

  3. PS.You要求(只选择一个因素使机器学习)在一般情况下不是一个好主意,因为预测的不同因素的贡献通常不是线性的,即知道,在输入向量中结合更多因素机器学习通常会给你带来更好的结果。

    祝你好运!