从csv文件中的R中挖掘文本-网页标题

时间:2018-08-09 15:50:16

标签: r

包含网页标题列表的csv文件的每一行都采用以下格式:

Example Project Deliverables
PS Student Portal Intro   YouTube
royals lyrics   YouTube

总共有4,000多行。我的问题是,每当我尝试将每一行都转换为小写时,都会收到错误消息:

corpus<- Corpus(VectorSource(user2_clean_titles$Titles))
corpus_matrix<- DocumentTermMatrix(corpus)
corpus<- tm_map(corpus, content_transformer(tolower))

出现错误;

Error in FUN(content(x), ...) : invalid multibyte string 10

0 个答案:

没有答案