如何提高监督机器学习算法的效率

时间:2016-03-16 05:36:01

标签: machine-learning training-data supervised-learning test-data

我正在开展一个涉及使用顺序监督机器学习模型的项目,我用它来从非结构化文本数据中提取数据。数据的多样性是巨大的。

因此,我计划创建一个包含大量数据的训练集,并随机选择一些测试数据来检查模型的效率。我的问题是,是否存在增加的数据量训练集会提高机器学习模型的效率吗?如果没有,我该如何改进模型呢?

此外,如果我使用样本数据测试模型,其范围超出训练集(即与训练集不同的数据),那么我如何使模型处理它并产生正确的结果呢?

如果我经常测试数据,它是否真的可以从中学习(或者它只是根据现有的训练数据集生成结果)?

1 个答案:

答案 0 :(得分:0)

您通常要做的是使用广泛的数据集,然后随机拆分该数据集。

例如,如果您有10万行数据来训练您的模型,您可以随机提供80%的数据来训练模型,并使用剩余的20 000行来验证它。这是机器学习中的常见模式。

在这种方法中,您现在可以使用您的模型来提高您获得的分数。

您不希望在模型上创建false testdata。