Question

我有一个数据集a，我希望得到1到10000之间不包含“NA”或“null”的所有行。他们读我的数据集是这样的：

a<- read.table("GDS4879.CLEAN", header = TRUE, na.strings = NA)

是否可以使用R？

执行此操作

Answer 1

将"NA"和"null"传递给na.strings参数，然后在阅读文件后调用na.omit()。

示例：
（这里我从字符串中读取表格，但您可以轻松更改代码以读取文件）

text <- 
"A,B,C,D
NA,1,2,3
4,5,6,7
8,9,10,11
12,13,null,14"

a <- read.table(text=text, header=TRUE, sep=',',row.names=NULL,
                na.strings = c('NA','null')) # this parameter turns "NA" and "null" strings to NA values

a <- na.omit(a) # this removes the strings containing NAs

> a
  A B  C  D
2 4 5  6  7
3 8 9 10 11

Answer 2

首先，您要清除数据集中的所有NA。您可以使用complete.cases

来实现这一目标

a[complete.cases(a),]

然后使用head函数获取第一个10000

a <- head(a,10000)

R - 不包含＆＃34; NA＆＃34;的数据集的子集。或＆＃34; null＆＃34;

2 个答案: