在日食中重新训练stanford nlp pos tagger

时间:2013-09-23 08:06:45

标签: java eclipse nlp pos-tagger

我对nlp很新,我正在试图找出pos标签。 目前我正在尝试使用stanford nlp pos tagger,网址:http://nlp.stanford.edu/software/tagger.shtml

从上面的链接,有这句话:

  

在给予POS注释的情况下,可以对任何语言重新训练标记器   培训语言文本。

然而,我无法让它发挥作用。我现在所能做的就是给它一个文本文件来标记。例如String test = "this is a test";将返回给我_DT is_VBZ a_DT test_NN。

如何重新训练标记器?假设我想要返回上面的字符串,因为this_DT is_VBZ a_DT test_VB?

欣赏这里的任何答案。

1 个答案:

答案 0 :(得分:0)

除非你有一个带有标记的语料库,其中包含许多你想要纠正的现象/现象的例子,否则你很可能没有成功重新训练标记模型。为了澄清,根据我对斯坦福工具进行培训的期望,没有机制可以添加单个示例来改变模型。你需要有一个完整的语料库并重新训练。

如果你确实有一个语料库,那么我会参考这个previously posted question来获取文件格式的详细信息以及培训Stanford CoreNLP模型的正确步骤。

否则,最好的办法是编写一些覆盖行为的后处理规则/正则表达式模式。此类规则的用途是确保词汇表中的人和地点被标记为专有名词(NNP)。

祝你好运!