(编辑)这个R的东西很新,但我发现它非常有趣。试着按照本教程。好吧所以我要做的是一些文本操作,如条带空白,转换大小写,过滤停止词,但首先我想将其读入包含3列的数据框。 我正在尝试读取此zip文件中的数据=
http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/smsspamcollection.zip
这是火腿和垃圾邮件的.txt文件。我想把它分成三列“ID”,“文本”,“类”。 “ID”是字符串的唯一标识符,“Text”是实际消息,“Class”是消息的“ham”或“spam”分类符。
到目前为止我所拥有的是......
dat = readLines("SMSSpamCollection.txt")
dat = as.data.frame(do.call(rbind, strsplit(dat, split="\t")),
stringsAsFactors=FALSE)
names(dat) = c("ID", "Class" , "Text")
这会将其读入数据框,但它无法将索引识别为“ID”列,是否有任何帮助?
答案 0 :(得分:0)
此文件不包含标识符。它只有两个变量,' Class'和'文字'。名字将是' Class'和'文字'。