在统计编程的第一门课程一书中,由R. John Braun和Duncan J. Murdoch撰写的第31页(数据框和read.table
函数),他们解释
数据集通常由多列数据组成,其中 每列代表单个变量的测量值。每一行 通常代表一个观察。这种格式称为 逐个变量格式。
例如,以下数据集包含四个观察结果 三个变量x,y和z:
x y z
61 13 4
175 21 18
111 24 14
124 23 18
如果这样的数据集存储在名为
pretend.dat
的文件中 目录myfiles在C:驱动器上(这是在Windows中,但我使用的是 Mac ),然后它可以读入R数据帧。这可以是命令 通过键入pretend.df <- read.table("c:/myfiles/pretend.dat", header = T)
完成。在数据框中,列被命名。要查看x列,请键入
pretend.df$x
问题(书):显示pretend.df
的第1行第3列元素。
到目前为止,我使用Excel(.xlsx或csv ??)创建了Macbook Pro这个文件。从那里,我写了pretend.df <- read.table("/Users/jg24/Documents/R/Classeur1.xlsx", header = T)
,并发生了错误
Warning messages:
1: In read.table("/Users/jg24/Documents/R/Classeur1.xlsx", header = T) :
line 1 appears to contain embedded nulls
2: In read.table("/Users/jg24/Documents/R/Classeur1.xlsx", header = T) :
line 3 appears to contain embedded nulls
3: In read.table("/Users/jg24/Documents/R/Classeur1.xlsx", header = T) :
line 4 appears to contain embedded nulls
4: In read.table("/Users/jg24/Documents/R/Classeur1.xlsx", header = T) :
line 5 appears to contain embedded nulls
5: In scan(file = file, what = what, sep = sep, quote = quote, dec = dec, :
embedded nul(s) found in input
如果我尝试命令pretend.df <- read.table("/Users/jg24/Documents/R/Classeur1.csv", header = T)
,我得到了
Warning message:
In read.table("/Users/jg24/Documents/R/Classeur1.csv", header = T) :
incomplete final line found by readTableHeader on '/Users/jg24/Documents/R/Classeur1.csv'
问题:任何人都可以告诉我上一个命令出了什么问题,我怎么能修改它?
P.S。我是RStudio的新用户。任何人都可以用这个软件向我展示这个问题吗?
答案 0 :(得分:0)
我没有足够的声誉来发表评论,所以我会在这里说出来:我会简化一切。因此,如果可以,请将其另存为csv文件并使用 readr 包。从那里,您可以拨打read_csv
。
或许更好,您可以下载preview release of RStudio,然后在环境标签中点击导入数据集,然后再按照其余说明操作。不知道更多,很难说这是否有效,但我怀疑它应该如此。