我有逐步添加遗传样本时发现的许多独特遗传变异的数据。我想构建一个模型,以查看大约需要多少样本才能找到完整数量的遗传变异。我尝试使用2到5度多项式方程拟合曲线(新变量的累积计数KWB
作为我的响应变量,样本Sample
的计数作为我的解释变量)。然后使用最佳拟合模型我试图推断响应变量,即新变体的累积计数(KWB
)。该图显示它呈指数增长,但它应该在某个时刻饱和。这是我的代码。
t <- subset(su, !is.na(KWP))
t$pred1 <- predict(lm(KWP ~ poly(Sample, 2, raw = TRUE), data=t))
p1 <- ggplot(t, aes(x = Sample, y=KWP)) + geom_line() + geom_point()
print(p1)
p1 + geom_line(aes(y = pred1), color="red")
pred <- data.frame(Sample=1:300)
pred$KWP <- predict(lm(KWP ~ poly(Sample, 2, raw = TRUE), data=t),newdata=pred)
p1 + geom_line(color="red", data=pred)