将文本文件加载到R中以分析聊天记录

时间:2017-02-10 00:32:37

标签: r text dplyr grepl startswith

所以,我一直试图将一个文本文件(每一行都是一个聊天记录)转换为R,将其转换为数据框,并进一步整理数据。

我正在使用read.Lines,所以我可以将每个日志作为一行。因为read.Lines读取一个长char;然后我将它们转换为字符串(我需要解析日志);如下所示

rawchat <- readLines("disc-W-App-avec-loy.txt")
rawchat <- c(lapply(rawchat, toString))

当我想将此列表转换为数据框时,我的问题出现了:

rawchat <- as.data.frame(rawchat)

它将列表转换为对42,000个变量进行1次观察的数据框。目的是将其变成对一个变量的42,000个观测值。

请帮忙吗?

顺便说一下,我在整理R中的原始数据时非常新。

所以,我遇到了另一个块:

我将文本文件作为数据框加载,如下所示。

rawchat <- readLines("disc-W-App-avec-loy.txt")
rawchat <- as.data.frame(rawchat, stringsAsFactors=FALSE)
names(rawchat) <- "chat"

我目前正在尝试识别以数字16开头的任何行(42000)。我似乎无法正确应用startsWith()函数或dplyr starts_with() ,甚至是带有正则表达式的grepl

可能是数据框(chr)的观察格式吗?

1 个答案:

答案 0 :(得分:1)

问题出在rawchat <- c(lapply(rawchat, toString)) 只需使用

rawchat <- readLines("disc-W-App-avec-loy.txt")")
rawchat <- as.data.frame(rawchat, stringsAsFactors=FALSE)