Question

我正在使用大约有100万条记录的csv数据集。我需要对数据集执行两个操作：

我曾尝试过使用excel，但这需要花费太多时间。请有人帮忙解决它在R中的做法吗？

Answer 1

要获得完整案例，请使用：

complete_df <- df[complete.cases(df),]

complete.cases返回一个逻辑向量，告诉您哪些数据帧df行已完成，您可以使用它来对数据进行子集化。

要替换NA，您可以使用：

new_df <- df
new_df[is.na()] <- 'Unknown'

但是这可能会改变缺少数据的列的数据类型。例如，如果您有一列数字数据并且将缺失的变量设置为“未知”，则整个列现在是一个字符变量，因此请注意这一点。