Question

我正在尝试从一堆不同的文本文件中读取tweet，然后计算每个tweet中的字符数。

我使用的读取单个文本文件的代码如下：

nbc <- readLines(".../nbchealthnews.txt", 
                    encoding = "utf-10") %>%
map(., str_split_fixed, "\\|", 3) %>%
map_df(., as_tibble)

然后我要运行

nbc_tweetLength <- nchar(nbc$V3)

但是，出现以下错误：

> nbc_tweetLength <- nchar(nbc$V3)
Error in nchar(nbc$V3) : invalid multibyte string, element 271

元素271是

> nbc$V3[271]
[1] "RT @JuliaSommerfeld: Tales of chucking big jobs are the new lady porn RT @ELLEmagazine: What's REALLY causing women to burn out before 30: \u0085"

而文本文件中相应的实际推文为

RT @JuliaSommerfeld: Tales of chucking big jobs are the new lady porn RT @ELLEmagazine: What's REALLY causing women to burn out before 30: …

如何按原样阅读该推文。也就是说，按原样读取冒号后面出现的省略号，以使推文的内容保持不变？

如果这不可能，我该如何规避在计算每个推文中的字符总数的同时考虑诸如\x85和\u0092之类的特殊字符（后者出现在另一条推文中）的问题当它读入R时；在原始文本中，这是一个卷曲的撇号（’）。

如何在R中使用省略号阅读推文/文本

0 个答案: