我想聚类客户文本数据。例如,基本文本如下: 文字1: ...VARDIR.SAHİLEBAKANKISIMDA.İLÇEBELEDİYEYEAİT....
在标记的下面部分之后,由于某些人在后面没有空格,所以未标记某些单词。或完整的句子条目,例如“KISIMDA.İLÇE” 算法不会像“ KISIMDA”,“İLÇE”这样的令牌。它需要像“KISIMDA.İLÇE”这样的机器人。
我该如何解决这个问题? 非常感谢
令牌部分
train.tokens<-tokens(text2$Text, what="word",
remove_numbers=TRUE, remove_symbol=TRUE, remove_separators=TRUE,
remove_punct= TRUE, remove_hyphens=TRUE)
train.tokens<-tokens_tolower(train.tokens)
train.tokens1<-tokens_select(train.tokens, stopwords("tr", source = "stopwords-iso"),
selection = "remove")