标签: c++ stanford-nlp
在C ++中使用斯坦福大学的TokenScanner类,如何保持“不是”完整的单词,因为默认标记将其分为isn,',{{1 }}。
TokenScanner
isn
'
t
此当前代码显示:
“这个”\ n“isn”\ n“\'”\ n“t”\ n“me”\ n
作为从令牌中获得的单独单词。
答案 0 :(得分:0)
使用scanner.addWordCharacters"'"将单引号添加到单词中接受的字符列表中。
scanner.addWordCharacters"'"