应用错误收集

我对nlp很新，我正在试图找出pos标签。目前我正在尝试使用stanford nlp pos tagger，网址：http://nlp.stanford.edu/software/tagger.shtml

从上面的链接，有这句话：

在给予POS注释的情况下，可以对任何语言重新训练标记器培训语言文本。

然而，我无法让它发挥作用。我现在所能做的就是给它一个文本文件来标记。例如String test = "this is a test";将返回给我_DT is_VBZ a_DT test_NN。

如何重新训练标记器？假设我想要返回上面的字符串，因为this_DT is_VBZ a_DT test_VB？

欣赏这里的任何答案。

除非你有一个带有标记的语料库，其中包含许多你想要纠正的现象/现象的例子，否则你很可能没有成功重新训练标记模型。为了澄清，根据我对斯坦福工具进行培训的期望，没有机制可以添加单个示例来改变模型。你需要有一个完整的语料库并重新训练。

如果你确实有一个语料库，那么我会参考这个previously posted question来获取文件格式的详细信息以及培训Stanford CoreNLP模型的正确步骤。

否则，最好的办法是编写一些覆盖行为的后处理规则/正则表达式模式。此类规则的用途是确保词汇表中的人和地点被标记为专有名词（NNP）。

祝你好运！