我对nlp很新,我正在试图找出pos标签。 目前我正在尝试使用stanford nlp pos tagger,网址:http://nlp.stanford.edu/software/tagger.shtml
从上面的链接,有这句话:
在给予POS注释的情况下,可以对任何语言重新训练标记器 培训语言文本。
然而,我无法让它发挥作用。我现在所能做的就是给它一个文本文件来标记。例如String test = "this is a test";
将返回给我_DT is_VBZ a_DT test_NN。
如何重新训练标记器?假设我想要返回上面的字符串,因为this_DT is_VBZ a_DT test_VB?
欣赏这里的任何答案。
答案 0 :(得分:0)
除非你有一个带有标记的语料库,其中包含许多你想要纠正的现象/现象的例子,否则你很可能没有成功重新训练标记模型。为了澄清,根据我对斯坦福工具进行培训的期望,没有机制可以添加单个示例来改变模型。你需要有一个完整的语料库并重新训练。
如果你确实有一个语料库,那么我会参考这个previously posted question来获取文件格式的详细信息以及培训Stanford CoreNLP模型的正确步骤。
否则,最好的办法是编写一些覆盖行为的后处理规则/正则表达式模式。此类规则的用途是确保词汇表中的人和地点被标记为专有名词(NNP)。
祝你好运!