数据科学模型和培训 - 了解

时间:2018-01-10 22:36:27

标签: python machine-learning artificial-intelligence jupyter-notebook data-science

来自您编写代码,测试,部署,运行的编程背景。我试图围绕"训练模型的概念"或者经过培训的模型"在数据科学领域,并部署经过培训的模型。

我并不真正关心部署环境,自动化等。我试图了解部署单元......经过培训的模型。受过训练的模型在文件系统上的样子是什么,它包含什么?

我理解训练模型的概念,并将一组数据分成训练集和测试集,但是我可以说我有一个笔记本(python / jupyter)并且我加载了一些数据,在训练/测试之间划分数据,并运行一个算法来训练"我的模特。引擎盖下的可交付成果是什么?虽然我正在训练模型,但我认为存在一定数量的数据存储在内存中。那么它如何成为训练模型的一部分?它显然不能包含用于培训的所有数据;因此,例如,如果我正在训练聊天机器人代理(基于检索),那么在我添加/输入用户问题的示例或"意图"之后,实际发生的是该培训的一部分。什么是我可部署的训练模型?这个训练有素的模型是否包含来自训练或术语数组的某种数据总和,它可以获得多大(可部署的大小)?

虽然这个问题可能看起来相对简单而且#34;什么是训练有素的模型",我如何用简单的术语向devops技术解释它?这是一个对数据科学感兴趣的IT人员,他试图在与数据科学人员的讨论中理解训练模型的有形单元"。

由于

3 个答案:

答案 0 :(得分:0)

这取决于型号。例如,线性回归,训练将给出斜率系数和截距(通常)。这些是“模型参数”。传统上,在部署时,这些系数被输入到不同的算法中(字面上是y = mx + b),然后当查询“我应该是什么时,当我有x”时,它会以适当的值进行响应。

另一方面,Kmeans聚类“参数”是向量,预测算法计算距算法给出的向量的距离,然后返回最近的聚类 - 注意这些聚类经常被后处理,因此预测算法会说“鞋子”不是“[1,2,3,5]”,这也是这些事情在野外如何变化的一个例子。

深度学习返回图表边缘权重列表,各种参数系统(如最大似然估计),返回系数来描述特定分布,例如均匀分布是桶的数量,高斯/正态分布是均值和方差,其他更复杂的方法甚至更多,例如偏斜和条件概率。

答案 1 :(得分:0)

受过训练的模型(腌制的)或您要使用的任何模型,至少包含对其进行过训练的功能。以一个简单的基于距离的模型为例,您基于以下事实设计模型:(x1,x2,x3,x4)特征很重要,并且如果与模型接触的任何点都应基于您得出见解或结论。 同样,对于聊天机器人,无论您想要什么功能,都可以根据ner-crf进行训练。一旦文本与模型接触,就会基于模型提取特征并绘制见解/结论。希望对您有所帮助!我试图解释费曼方式。

答案 2 :(得分:0)

经过训练的模型将包含其参数的。如果仅调整了几个参数,则只有它们将包含新的调整值。不变的参数将存储默认值。