nlp - 用于新域的NLP POS Tagger

我正在使用NLTK，并希望使用已预先训练过的现有pos-tagger，并进一步训练它用于新域名。

我从Perceptron标记器操作中理解的是，它在文件中查找单词，如果找不到单词，则预测该单词的POS。理想情况下，我希望标记器预测特定于域的单词。但是我没有针对新域的常规注释文本（我可以梳理类似于医学字典的内容以获取特定于域的单词）。我可以使用域特定词来做两件事：

1.我可以写简单的句子，比如＆＃34;我有血管成形术＆＃34;并注释它们。这将允许标记器更准确地预测任何看不见的域特定单词。与常规文本中的注释相比，写入和注释简单句子是否会偏向模型？

2.我可以直接在文件中包含该单词。不是我的第一选择。

我还遇到了一个使用HMM进行特定领域培训的文档，但我不确定它是否有效。

我应该怎么做？