所以,我一直试图将一个文本文件(每一行都是一个聊天记录)转换为R,将其转换为数据框,并进一步整理数据。
我正在使用read.Lines,所以我可以将每个日志作为一行。因为read.Lines读取一个长char;然后我将它们转换为字符串(我需要解析日志);如下所示
rawchat <- readLines("disc-W-App-avec-loy.txt")
rawchat <- c(lapply(rawchat, toString))
当我想将此列表转换为数据框时,我的问题出现了:
rawchat <- as.data.frame(rawchat)
它将列表转换为对42,000个变量进行1次观察的数据框。目的是将其变成对一个变量的42,000个观测值。
请帮忙吗?
顺便说一下,我在整理R中的原始数据时非常新。
所以,我遇到了另一个块:
我将文本文件作为数据框加载,如下所示。
rawchat <- readLines("disc-W-App-avec-loy.txt")
rawchat <- as.data.frame(rawchat, stringsAsFactors=FALSE)
names(rawchat) <- "chat"
我目前正在尝试识别以数字16开头的任何行(42000)。我似乎无法正确应用startsWith()
函数或dplyr
starts_with()
,甚至是带有正则表达式的grepl
。
可能是数据框(chr
)的观察格式吗?
答案 0 :(得分:1)
问题出在rawchat <- c(lapply(rawchat, toString))
只需使用
rawchat <- readLines("disc-W-App-avec-loy.txt")")
rawchat <- as.data.frame(rawchat, stringsAsFactors=FALSE)