我想对包含相邻单词的句子进行标记,如下所示:
“这是一个Iwanttotokenize的样本字符串。”
在上面的例子中,有两种情况“samplestring”& “Iwanttotokenize”相邻单词出现的地方。知道如何制作这些单词的标记吗?
对于这句话,理想的输出应该是(每行一个标记): 这个 是 一个 样品 串 那 一世 想 至 tokenize
答案 0 :(得分:1)
我建议使用像http://www.sil.org/linguistics/wordlists/english这样的单词列表 如果内存允许,将其打包到HashSet中并使用函数contains()(针对哈希比较进行优化)
首先,使用StringTokenizer对字符串进行标记。 对于每个令牌,检查它是否以列表中的单词开始和/或结束。 如果它以该列表中的单词开头和结尾,并且没有剩余字母 在适当的位置在原始字符串中插入空格 并再次标记。