标签: tokenize information-retrieval
如果我有一个字符串"您好,我是XYZ" 它可以被标记为令牌: - " Hello",&#34 ;我"," am"," XYZ" 。但是我如何标记非空格分隔的字符串。 例如:"您好,IamXYZ" ?
答案 0 :(得分:0)
如果字符串中没有空格,则使用字典对其进行标记。
另一种方法是使用ngrams,但要小心字符串的长度,因为它可以创建许多ngrams!