python - 数据科学模型和培训 - 了解

数据科学模型和培训 - 了解

时间：2018-01-10 22:36:27

标签： python machine-learning artificial-intelligence jupyter-notebook data-science

来自您编写代码，测试，部署，运行的编程背景。我试图围绕＆＃34;训练模型的概念＆＃34;或者经过培训的模型＆＃34;在数据科学领域，并部署经过培训的模型。

我并不真正关心部署环境，自动化等。我试图了解部署单元......经过培训的模型。受过训练的模型在文件系统上的样子是什么，它包含什么？

我理解训练模型的概念，并将一组数据分成训练集和测试集，但是我可以说我有一个笔记本（python / jupyter）并且我加载了一些数据，在训练/测试之间划分数据，并运行一个算法来训练＆＃34;我的模特。引擎盖下的可交付成果是什么？虽然我正在训练模型，但我认为存在一定数量的数据存储在内存中。那么它如何成为训练模型的一部分？它显然不能包含用于培训的所有数据;因此，例如，如果我正在训练聊天机器人代理（基于检索），那么在我添加/输入用户问题的示例或＆＃34;意图＆＃34;之后，实际发生的是该培训的一部分。什么是我可部署的训练模型？这个训练有素的模型是否包含来自训练或术语数组的某种数据总和，它可以获得多大（可部署的大小）？

虽然这个问题可能看起来相对简单而且＃34;什么是训练有素的模型＆＃34;，我如何用简单的术语向devops技术解释它？这是一个对数据科学感兴趣的IT人员，他试图在与数据科学人员的讨论中理解训练模型的有形单元＆＃34;。

由于

3 个答案:

答案 0 :(得分：0)

这取决于型号。例如，线性回归，训练将给出斜率系数和截距（通常）。这些是“模型参数”。传统上，在部署时，这些系数被输入到不同的算法中（字面上是y = mx + b），然后当查询“我应该是什么时，当我有x”时，它会以适当的值进行响应。

另一方面，Kmeans聚类“参数”是向量，预测算法计算距算法给出的向量的距离，然后返回最近的聚类 - 注意这些聚类经常被后处理，因此预测算法会说“鞋子”不是“[1,2,3,5]”，这也是这些事情在野外如何变化的一个例子。

深度学习返回图表边缘权重列表，各种参数系统（如最大似然估计），返回系数来描述特定分布，例如均匀分布是桶的数量，高斯/正态分布是均值和方差，其他更复杂的方法甚至更多，例如偏斜和条件概率。

答案 1 :(得分：0)

受过训练的模型（腌制的）或您要使用的任何模型，至少包含对其进行过训练的功能。以一个简单的基于距离的模型为例，您基于以下事实设计模型：（x1，x2，x3，x4）特征很重要，并且如果与模型接触的任何点都应基于您得出见解或结论。同样，对于聊天机器人，无论您想要什么功能，都可以根据ner-crf进行训练。一旦文本与模型接触，就会基于模型提取特征并绘制见解/结论。希望对您有所帮助！我试图解释费曼方式。

答案 2 :(得分：0)

经过训练的模型将包含其参数的值。如果仅调整了几个参数，则只有它们将包含新的调整值。不变的参数将存储默认值。