如何阻止Stanford POS标记器进行句子分割?
我的文字已被分成句子和标记,每行一个句子。我只想要每个令牌的POS标签。
输出中的行数和标记数应等于输入中的行数和标记数。
示例:
$ echo ". . . a b c . . . d e f" \
| java \
-classpath stanford-postagger.jar \
edu.stanford.nlp.tagger.maxent.MaxentTagger \
-prop myPropsFile.prop \
-model models/german-fast.tagger
._$. ._$. ._$.
a_XY b_XY c_FM ._$. ._$. ._$.
d_FM e_FM f_VVFIN
我期待的输出将是:
._$. ._$. ._$. a_XY b_XY c_FM ._$. ._$. ._$. d_FM e_FM f_VVFIN
我已将tokenize=false
放入我的道具文件中,但仍会将句子分开。 (它还在输出中的句子之间放置一个空行,这是不希望的。)