我正在尝试从一堆不同的文本文件中读取tweet,然后计算每个tweet中的字符数。
我使用的读取单个文本文件的代码如下:
nbc <- readLines(".../nbchealthnews.txt",
encoding = "utf-10") %>%
map(., str_split_fixed, "\\|", 3) %>%
map_df(., as_tibble)
然后我要运行
nbc_tweetLength <- nchar(nbc$V3)
但是,出现以下错误:
> nbc_tweetLength <- nchar(nbc$V3)
Error in nchar(nbc$V3) : invalid multibyte string, element 271
元素271是
> nbc$V3[271]
[1] "RT @JuliaSommerfeld: Tales of chucking big jobs are the new lady porn RT @ELLEmagazine: What's REALLY causing women to burn out before 30: \u0085"
而文本文件中相应的实际推文为
RT @JuliaSommerfeld: Tales of chucking big jobs are the new lady porn RT @ELLEmagazine: What's REALLY causing women to burn out before 30: …
如何按原样阅读该推文。也就是说,按原样读取冒号后面出现的省略号,以使推文的内容保持不变?
如果这不可能,我该如何规避在计算每个推文中的字符总数的同时考虑诸如\x85
和\u0092
之类的特殊字符(后者出现在另一条推文中)的问题当它读入R时;在原始文本中,这是一个卷曲的撇号(’
)。