BreakIterator可以识别"&#t;" tis"一句话

时间:2015-12-15 15:57:59

标签: java string text apostrophe word-boundary

使用BreakIterator.getWordInstance(),文字"can't"被视为一个"字"

一些小实验表明,虽然一个单词中的撇号被认为是单词的一部分;两端的撇号被认为是与单词分开 - 这是在撇号和字母之间报告的单词边界。

即使拼写正确,也可以排除"'tis""dogs'"之类的单词"单词&#34 ;.

有没有办法纠正这种行为,或者这是一个错误?

0 个答案:

没有答案