我正在使用NLTK,并希望使用已预先训练过的现有pos-tagger,并进一步训练它用于新域名。
我从Perceptron标记器操作中理解的是,它在文件中查找单词,如果找不到单词,则预测该单词的POS。理想情况下,我希望标记器预测特定于域的单词。但是我没有针对新域的常规注释文本(我可以梳理类似于医学字典的内容以获取特定于域的单词)。我可以使用域特定词来做两件事:
1.我可以写简单的句子,比如"我有血管成形术"并注释它们。这将允许标记器更准确地预测任何看不见的域特定单词。与常规文本中的注释相比,写入和注释简单句子是否会偏向模型?
2.我可以直接在文件中包含该单词。不是我的第一选择。
我还遇到了一个使用HMM进行特定领域培训的文档,但我不确定它是否有效。
我应该怎么做?