应用错误收集

我想聚类客户文本数据。例如，基本文本如下：文字1： ...VARDIR.SAHİLEBAKANKISIMDA.İLÇEBELEDİYEYEAİT....

在标记的下面部分之后，由于某些人在后面没有空格，所以未标记某些单词。或完整的句子条目，例如“KISIMDA.İLÇE” 算法不会像“ KISIMDA”，“İLÇE”这样的令牌。它需要像“KISIMDA.İLÇE”这样的机器人。

我该如何解决这个问题？非常感谢

令牌部分

train.tokens<-tokens(text2$Text, what="word",
                     remove_numbers=TRUE, remove_symbol=TRUE, remove_separators=TRUE,
                     remove_punct= TRUE, remove_hyphens=TRUE)
train.tokens<-tokens_tolower(train.tokens)
train.tokens1<-tokens_select(train.tokens, stopwords("tr", source = "stopwords-iso"),
                             selection = "remove")

如何在文本挖掘中标记空白的句子？

0 个答案: