使用GATE twitter模型的Stanford POS标记很慢

时间:2014-11-01 12:05:33

标签: java performance twitter nlp gate

我正在使用Stanford POS taggerGATE Twitter model并且标记器需要大约3秒才能初始化,这是正常的还是我加载错误了?

小样本代码:

package tweet.nlp.test;

import edu.stanford.nlp.tagger.maxent.MaxentTagger;

public class TweetNLPTest {

    public static void main(String[] args) {
        String text = "My sister won't tell me where she hid my food. She's fueling my anorexia. #bestsisteraward #not ";

        MaxentTagger tagger = new MaxentTagger("models/gate-EN-twitter.model");

        String taggedText = tagger.tagString(text);
    }
}

输出:

  

从models / gate-EN-twitter.model中读取POS标记模型...   警告:没有语言设置,没有指定开放类标签,也没有   指定的封闭类标签;假设所有标签都是开放类标签   完成[3.1秒]。

     

My_PRP $ sister_NN Would_MD tell_VB me_PRP where_WRB   she_PRP hid_VBD my_PRP $ food._NN She's_VBZ fueling_VBG my_PRP $   anorexia._NN #bestsisteraward_HT #not_HT _HT建立成功   (总时间:3秒)

1 个答案:

答案 0 :(得分:2)

对我而言看起来很正常,初始化大约需要2到3秒。 .tagger.model相同。

您可以在Stanford Tagger提供的样本模型中看到它:

model = wsj-0-18-bidirectional-nodistsim.tagger