应用错误收集

如何阻止Stanford POS标记器进行句子分割？

我的文字已被分成句子和标记，每行一个句子。我只想要每个令牌的POS标签。

输出中的行数和标记数应等于输入中的行数和标记数。

示例：

$ echo ". . . a b c . . . d e f" \
  | java \
     -classpath stanford-postagger.jar \
                edu.stanford.nlp.tagger.maxent.MaxentTagger \
     -prop myPropsFile.prop \
     -model models/german-fast.tagger
._$. ._$. ._$.

a_XY b_XY c_FM ._$. ._$. ._$.

d_FM e_FM f_VVFIN

我期待的输出将是：

._$. ._$. ._$. a_XY b_XY c_FM ._$. ._$. ._$. d_FM e_FM f_VVFIN

我已将tokenize=false放入我的道具文件中，但仍会将句子分开。（它还在输出中的句子之间放置一个空行，这是不希望的。）

如何防止斯坦福POS标记器分裂句子？

0 个答案: