如何在文本挖掘中标记空白的句子?

时间:2019-12-09 09:30:25

标签: r text-mining

我想聚类客户文本数据。例如,基本文本如下: 文字1: ...VARDIR.SAHİLEBAKANKISIMDA.İLÇEBELEDİYEYEAİT....

在标记的下面部分之后,由于某些人在后面没有空格,所以未标记某些单词。或完整的句子条目,例如“KISIMDA.İLÇE” 算法不会像“ KISIMDA”,“İLÇE”这样的令牌。它需要像“KISIMDA.İLÇE”这样的机器人。

我该如何解决这个问题? 非常感谢

令牌部分

train.tokens<-tokens(text2$Text, what="word",
                     remove_numbers=TRUE, remove_symbol=TRUE, remove_separators=TRUE,
                     remove_punct= TRUE, remove_hyphens=TRUE)
train.tokens<-tokens_tolower(train.tokens)
train.tokens1<-tokens_select(train.tokens, stopwords("tr", source = "stopwords-iso"),
                             selection = "remove")

0 个答案:

没有答案