如何在R中使用省略号阅读推文/文本

时间:2018-11-22 18:32:27

标签: r

我正在尝试从一堆不同的文本文件中读取tweet,然后计算每个tweet中的字符数。

我使用的读取单个文本文件的代码如下:

nbc <- readLines(".../nbchealthnews.txt", 
                    encoding = "utf-10") %>%
map(., str_split_fixed, "\\|", 3) %>%
map_df(., as_tibble)

然后我要运行

nbc_tweetLength <- nchar(nbc$V3)

但是,出现以下错误:

> nbc_tweetLength <- nchar(nbc$V3)
Error in nchar(nbc$V3) : invalid multibyte string, element 271

元素271是

> nbc$V3[271]
[1] "RT @JuliaSommerfeld: Tales of chucking big jobs are the new lady porn RT @ELLEmagazine: What's REALLY causing women to burn out before 30: \u0085"

而文本文件中相应的实际推文为

RT @JuliaSommerfeld: Tales of chucking big jobs are the new lady porn RT @ELLEmagazine: What's REALLY causing women to burn out before 30: …

如何按原样阅读该推文。也就是说,按原样读取冒号后面出现的省略号,以使推文的内容保持不变?

如果这不可能,我该如何规避在计算每个推文中的字符总数的同时考虑诸如\x85\u0092之类的特殊字符(后者出现在另一条推文中)的问题当它读入R时;在原始文本中,这是一个卷曲的撇号()。

0 个答案:

没有答案