在闪亮的

时间:2017-11-20 06:04:34

标签: r tm rweka

当我运行应用程序时,我收到以下错误。

Error in FUN: invalid input 'at my monthly blog stats and we’re nearly on 4000 for April which is amazing – thank you Jx 😘😘' in 'utf8towcs'

由于blogs.txt文件中的情绪等,我试图将数据转换为如下所示。

blogs<-iconv(blogs, "latin1", "ASCII", sub="")

news<-iconv(news, "latin1", "ASCII", sub="")

twitter<-iconv(twitter, "latin1", "ASCII", sub="")

并使用下面的图标功能

创建语料库并清理数据

corpus <- VCorpus(VectorSource(data.sample))

toSpace <- content_transformer(function(x, pattern) gsub(pattern, " ", x))

corpus <- tm_map(corpus, toSpace, "(f|ht)tp(s?)://(.*)[.][a-z]+")

tospace <- tm_map(corpus,

content_transformer(function(x)

iconv(x, to="UTF-8", sub="byte")),

mc.cores=1)

不过,我正在解决这个问题。

请在这方面提供帮助。

会话信息:

====================

R版本3.4.2(2017-09-28)

平台:x86_64-w64-mingw32 / x64(64位)

在以下位置运行:Windows 7 x64(内部版本7601)Service Pack 1

Matrix产品:默认

区域设置:

[1] LC_COLLATE = English_United States.1252 LC_CTYPE = English_United States.1252

[3] LC_MONETARY = English_United States.1252 LC_NUMERIC = C

[5] LC_TIME = English_United States.1252

附加基础包:

[1] stats graphics grDevices utils数据集方法库

其他附件包:

[1] stringr_1.2.0 shiny_1.0.5 slam_0.1-40 ggplot2_2.2.1 RWeka_0.4-35 tm_0.7-1 NLP_0.1-11

[8] stringi_1.1.5

通过命名空间加载(而不是附加):

[1] Rcpp_0.12.13 magrittr_1.5 RWekajars_3.9.1-4 munsell_0.4.3 colorspace_1.3-2

[6] xtable_1.8-2 R6_2.2.2 rlang_0.1.4 plyr_1.8.4 tools_3.4.2

[11] parallel_3.4.2 grid_3.4.2 gtable_0.2.0 htmltools_0.3.6 yaml_2.1.14

[16] lazyeval_0.2.1 digest_0.6.12 tibble_1.3.4 rJava_0.9-9 rsconnect_0.8.5

[21] mime_0.5 compiler_3.4.2 scales_0.5.0 jsonlite_1.5 httpuv_1.3.5

2 个答案:

答案 0 :(得分:0)

您的问题与数据未在UTF-8

中编码有关

有很多方法可以确保这一点。

  • 确保原始文件以UTF-8编码,这可以使用记事本++完成,例如,如果它是一个简单的文本文件
  • iconv与`to =&#34; UTF-8&#34;
  • 一起使用
  • 使用enc2utf8()

如果您在开发期间在Windows PC上运行app,则可能需要告诉计算机编码为UTF-8

Encoding(blogs) <- "UTF-8"

答案 1 :(得分:0)

尝试使用&#39; stringi&#39;转换为常规unicode包,然后重新转换为语料库输入。此过程是必要的,因为stri_trans_general函数将以字符向量转换数据。

library(stringi)
corpus <- stri_trans_general(corpus, "latin-ascii")
corpus <- Corpus(VectorSource(corpus))