我有一个类似下面的数据集:
ID Message
1 .
2 .
3 Click_screen
4 Blank screen
5 .
6 .
7 .
实际数据集有48列和50,000行。
使用 read.table()导入此数据集是有问题的,因为字符串“空白屏幕”,在两个子字符串之间有一个空格。例如,我收到如下错误消息:
Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :
line 4 did not have 48 elements
我想知道是否有办法绕过R中的这个问题,而不是在Excel中更改原始数据集。
编辑:只是添加,我尝试将填充设置为TRUE,我收到以下错误消息:
Error in read.table(file.choose(), header = T, fill = T) :
duplicate 'row.names' are not allowed
答案 0 :(得分:1)
这取决于你当地的分隔符,但试试这个
read.table(fileName,fill=TRUE,header=FALSE,sep =';')
答案 1 :(得分:1)
如果文件是以空格分隔的(而不是以制表符分隔的),则可能需要read_fwf以及字段宽度向量。 如果文件是以制表符分隔的,则可能需要read.table(sep ='\ t',...)。