是否有任何基于Java的智能单词标记器可以在句子中生成相邻单词的标记?

时间:2013-01-21 19:41:29

标签: java tokenize

我想对包含相邻单词的句子进行标记,如下所示:

“这是一个Iwanttotokenize的样本字符串。”

在上面的例子中,有两种情况“samplestring”& “Iwanttotokenize”相邻单词出现的地方。知道如何制作这些单词的标记吗?

对于这句话,理想的输出应该是(每行一个标记): 这个 是 一个 样品 串 那 一世 想 至 tokenize

1 个答案:

答案 0 :(得分:1)

我建议使用像http://www.sil.org/linguistics/wordlists/english这样的单词列表 如果内存允许,将其打包到HashSet中并使用函数contains()(针对哈希比较进行优化)

首先,使用StringTokenizer对字符串进行标记。 对于每个令牌,检查它是否以列表中的单词开始和/或结束。 如果它以该列表中的单词开头和结尾,并且没有剩余字母 在适当的位置在原始字符串中插入空格 并再次标记。