应用错误收集

“模型”as downloadable for OpenNLP是a set of data representing a set of probability distributions用于根据您提供的输入预测所需的结构（例如part-of-speech标签）（在OpenNLP的情况下，通常是文本文件）

鉴于自然语言为context-sensitive ^†，此模型用于代替基于规则的系统，因为它通常比a number of reasons更适合you already mentioned为简洁起见，这里不再阐述。例如，作为is considered by some to be context-free，令牌完美可以是动词（VB）或形容词（JJ），这只能在上下文中消除歧义：

这个答案是完美的 - 对于这个例子，可以使用以下POS标签序列（除了更多^‡）：
1. DT NN VBZ JJ
2. DT NN VBZ VB

然而，根据准确表示（“正确”）英语^§的模型，示例1的概率大于示例2的概率：P([DT, NN, VBZ, JJ] | ["This", "answer", "is", "perfect"]) > P([DT, NN, VBZ, VB] | ["This", "answer", "is", "perfect"])

^†实际上，这是非常有争议的，但我在此强调，我所说的是整个自然语言（包括语义/语用学等）而不仅仅是关于自然语言语法，（至少在英语的情况下）。

^‡在以数据驱动的方式分析语言时，事实上任何 POS标签的组合都是“可能的”，但是，给出了“正确的”当代样本英语几乎没有噪音，母语人士认为“错误”的标签分配应该具有极低的发生概率。

^§在实践中，这意味着一个模型训练在一个大的，多样的（当代）英语（或你想要分析的其他目标领域）的语料库中，并具有适当的调整参数（如果我想更准确地说，这个脚注可以很容易地多段落。）

将受过训练的模型视为“具有现有信息的智慧大脑”。

当你开始机器学习时，模型的大脑是干净而空的。您可以下载经过培训的模型，也可以培训自己的模型（如教孩子）

通常你只训练边缘情况的模型，否则你下载“训练模型”并开始预测/机器学习。

NLP中训练有哪些模型？

2 个答案: