Stanford自然语言分析器如何使用Penn Tree Bank进行标记过程?我想知道它如何找到给定输入的POS?
答案 0 :(得分:3)
斯坦福词性标注器使用概率序列模型来确定句子下最可能的词性标签序列。该模型提供的一些功能是
有关详细信息,请参阅ExtractorFrames
class。该模型在标记语料库(如宾州树库)上进行训练,该语料库的每个标记都标有正确的词性。
在运行时,为输入文本计算上述功能,并用于构建每个标记的概率,然后将其输入Viterbi algorithm(ExactBestSequenceFinder
)的实现中,找到整个序列最可能的标签排列。
有关开始使用POS标记的更多信息:
edu.stanford.nlp.tagger.maxent
包