如何使用默认令牌分割保持“不是”完整的单词?

时间:2013-07-25 00:31:56

标签: c++ stanford-nlp

在C ++中使用斯坦福大学的TokenScanner类,如何保持“不是”完整的单词,因为默认标记将其分为isn',{{1 }}。

t

此当前代码显示:

  

“这个”\ n“isn”\ n“\'”\ n“t”\ n“me”\ n

作为从令牌中获得的单独单词。

1 个答案:

答案 0 :(得分:0)

使用scanner.addWordCharacters"'"将单引号添加到单词中接受的字符列表中。