基于不同场景的归因和机器学习查询

时间:2018-10-12 05:11:09

标签: machine-learning data-science training-data imputation test-data

我不熟悉数据科学,学习插补和模型训练。以下是训练数据集时遇到的一些查询。请提供这些答案。

  1. 假设我有一个包含1000个观测值的数据集。现在,我可以一次性在完整的数据集上训练模型。另一种方式是,我将数据集分为80%和20%,然后首先以80%,然后再以20%的数据训练模型。是相同还是不同?基本上,如果我用新数据训练已经训练好的模型,那是什么意思?

与侵权相关

  1. 另一个问题与插补有关。想象一下,我有一些轮船乘客的数据集,其中只有头等舱乘客被分配了机舱。有一个列包含机舱号(分类),但很少有观测值具有这些机舱号。现在,我知道此列很重要,因此我无法删除它,并且由于它缺少许多值,因此大多数算法都无法使用。如何处理这种类型的列?

  2. 在推算验证数据时,我们是否使用与推算训练数据相同的值进行推算,还是再次根据验证数据本身计算出推算值?

  3. 如何以票证编号(如A-123)之类的字符串形式插入数据。该列很重要,因为第一个字母告诉乘客的等级。因此,我们不能删除它。

1 个答案:

答案 0 :(得分:0)

  

假设我有一个包含1000个观测值的数据集。现在我训练模型   一口气在完整的数据集上。我做到的另一种方式,我划分了我的   80%和20%的数据集,然后先以80%训练我的模型,然后再训练   20%的数据。是相同还是不同?

很难说:是好是坏。通常,如果您的数据(拆分)来自相同的分布-您可以执行其他培训。但是,并非所有模型类型都适用。我建议您在进行其他培训之前和之后,使用80/20拆分和错误度量检查来运行某种交叉验证。

  

基本上,如果我已经训练了   训练有素的新数据模型,是什么意思?

如果您从相同的分布中获取数据集:您需要进行额外的学习,从理论上讲应该对模型产生积极影响。

  

想象一下,我有一些船上乘客的数据集,其中只有头等舱乘客才被提供。有一个列包含机舱号(分类),但很少有观测值具有这些机舱号。现在,我知道此列很重要,因此我无法删除它,并且由于它缺少许多值,因此大多数算法都无法使用。如何处理这种类型的列?

您需要清楚地了解您希望通过插补来做什么。如果只有第一类具有值,那么如何为第二或第三类进行插补?您需要找到什么?甲板?机舱号?您是要查找新值还是要通过现有值来估算?

  

在估算数据时,我们使用与估算训练数据相同的值进行估算,还是再次从验证数据本身计算出估算值?

通常,对所有数据(没有目标列)运行插补算法。

  

如何以票证编号(如A-123)之类的字符串形式估算数据。该列很重要,因为第一个字母告诉乘客的等级。因此,我们不能删除它。

如果案例数量有限,则只需将值归为字符串即可。如果不是,请执行功能工程:尝试预测字母,数字,数字的第一位数字,len(数字)等。