我正在使用大约有100万条记录的csv数据集。我需要对数据集执行两个操作:
我曾尝试过使用excel,但这需要花费太多时间。请有人帮忙解决它在R中的做法吗?
答案 0 :(得分:2)
要获得完整案例,请使用:
complete_df <- df[complete.cases(df),]
complete.cases
返回一个逻辑向量,告诉您哪些数据帧df行已完成,您可以使用它来对数据进行子集化。
要替换NA,您可以使用:
new_df <- df
new_df[is.na()] <- 'Unknown'
但是这可能会改变缺少数据的列的数据类型。例如,如果您有一列数字数据并且将缺失的变量设置为“未知”,则整个列现在是一个字符变量,因此请注意这一点。