斯坦福POS Tagger没有标记中文文本

时间:2013-04-18 04:00:16

标签: linux nlp stanford-nlp pos-tagger

我使用Stanford POS Tagger(第一次),虽然它正确地标记了英文,但即使更改模型参数,它似乎也不会识别(简体)中文。我忽略了什么吗?

我从这里下载并解压缩了最新的完整版本: http://nlp.stanford.edu/software/tagger.shtml

然后我将示例文本输入" sample-input.txt"。

  

这是一个测试的句子。这是另一个句子。

然后我就跑了

  

./ stanford-postagger.sh models / chinese-distsim.tagger sample-input.txt

预期输出是用词性标记每个单词,而是将整个文本字符串识别为一个单词:

  

从tagger models / chinese-distsim.tagger

加载默认属性      

从models / chinese-distsim.tagger中读取POS标记模型...完成[3.5秒]。

     

这是一个测试的句子。这是另一个句子。#NR

     

标记1个单词,每秒30.30个单词。

我感谢任何帮助。

1 个答案:

答案 0 :(得分:6)

我终于意识到这个pos标记器中不包含标记化/分割。在将它们提供给标记器之前,它们似乎必须以空格分隔。对于那些对中文最大熵分词感兴趣的人,这里有一个单独的包:

http://nlp.stanford.edu/software/segmenter.shtml

谢谢大家。