stanford tagger - 标记速度

时间:2010-07-14 04:17:30

标签: nlp stanford-nlp

关于stanford标记器,我提供了自己的标记语料库来训练stanford标记器的模型。但是,我已经意识到我的模型对标记器的标记速度比默认的wsjleft3标记器模型慢得多。什么可能有助于此?我如何提高模型的速度? (除了Penn树库标签集之外,我还添加了3个或4个自定义标签)

1 个答案:

答案 0 :(得分:4)

虽然添加更多功能(在arch中)使得它总体上变慢(因为特征提取是主要的运行时成本之一),速度的两个重要决定因素是:

  • 中使用的上下文标记数 功能:left3words使用 上一个和第二个前一个标签(2) 所以相当快,双向 使用4(每边两个),所以 非常慢。仅使用1的标记器 或0个上下文标签要快得多 试。
  • 一般标记集的大小,特别是可应用于未知单词的开放类标记集的大小。 (但添加3或4应该几乎没有区别 - 当你有一个包含数百个标签的标签时,这是有问题的。)