当我运行应用程序时,我收到以下错误。
Error in FUN: invalid input 'at my monthly blog stats and we’re nearly on 4000 for April which is amazing – thank you Jx 😘😘' in 'utf8towcs'
由于blogs.txt文件中的情绪等,我试图将数据转换为如下所示。
blogs<-iconv(blogs, "latin1", "ASCII", sub="")
news<-iconv(news, "latin1", "ASCII", sub="")
twitter<-iconv(twitter, "latin1", "ASCII", sub="")
并使用下面的图标功能
corpus <- VCorpus(VectorSource(data.sample))
toSpace <- content_transformer(function(x, pattern) gsub(pattern, " ", x))
corpus <- tm_map(corpus, toSpace, "(f|ht)tp(s?)://(.*)[.][a-z]+")
tospace <- tm_map(corpus,
content_transformer(function(x)
iconv(x, to="UTF-8", sub="byte")),
mc.cores=1)
不过,我正在解决这个问题。
请在这方面提供帮助。
会话信息:
====================
R版本3.4.2(2017-09-28)
平台:x86_64-w64-mingw32 / x64(64位)
在以下位置运行:Windows 7 x64(内部版本7601)Service Pack 1
Matrix产品:默认
区域设置:
[1] LC_COLLATE = English_United States.1252 LC_CTYPE = English_United States.1252
[3] LC_MONETARY = English_United States.1252 LC_NUMERIC = C
[5] LC_TIME = English_United States.1252
附加基础包:
[1] stats graphics grDevices utils数据集方法库
其他附件包:
[1] stringr_1.2.0 shiny_1.0.5 slam_0.1-40 ggplot2_2.2.1 RWeka_0.4-35 tm_0.7-1 NLP_0.1-11
[8] stringi_1.1.5
通过命名空间加载(而不是附加):
[1] Rcpp_0.12.13 magrittr_1.5 RWekajars_3.9.1-4 munsell_0.4.3 colorspace_1.3-2
[6] xtable_1.8-2 R6_2.2.2 rlang_0.1.4 plyr_1.8.4 tools_3.4.2
[11] parallel_3.4.2 grid_3.4.2 gtable_0.2.0 htmltools_0.3.6 yaml_2.1.14
[16] lazyeval_0.2.1 digest_0.6.12 tibble_1.3.4 rJava_0.9-9 rsconnect_0.8.5
[21] mime_0.5 compiler_3.4.2 scales_0.5.0 jsonlite_1.5 httpuv_1.3.5
答案 0 :(得分:0)
您的问题与数据未在UTF-8
有很多方法可以确保这一点。
iconv
与`to =&#34; UTF-8&#34; enc2utf8()
如果您在开发期间在Windows PC上运行app,则可能需要告诉计算机编码为UTF-8
Encoding(blogs) <- "UTF-8"
答案 1 :(得分:0)
尝试使用&#39; stringi&#39;转换为常规unicode包,然后重新转换为语料库输入。此过程是必要的,因为stri_trans_general函数将以字符向量转换数据。
library(stringi)
corpus <- stri_trans_general(corpus, "latin-ascii")
corpus <- Corpus(VectorSource(corpus))