如何防止斯坦福POS标记器分裂句子?

时间:2014-05-19 21:13:05

标签: stanford-nlp pos-tagger

如何阻止Stanford POS标记器进行句子分割?

我的文字已被分成句子和标记,每行一个句子。我只想要每个令牌的POS标签。

输出中的行数和标记数应等于输入中的行数和标记数。

示例:

$ echo ". . . a b c . . . d e f" \
  | java \
     -classpath stanford-postagger.jar \
                edu.stanford.nlp.tagger.maxent.MaxentTagger \
     -prop myPropsFile.prop \
     -model models/german-fast.tagger
._$. ._$. ._$.

a_XY b_XY c_FM ._$. ._$. ._$.

d_FM e_FM f_VVFIN

我期待的输出将是:

._$. ._$. ._$. a_XY b_XY c_FM ._$. ._$. ._$. d_FM e_FM f_VVFIN

我已将tokenize=false放入我的道具文件中,但仍会将句子分开。 (它还在输出中的句子之间放置一个空行,这是不希望的。)

0 个答案:

没有答案