我有一个大数据框My_Data
,其中包含数千个名称。我正在尝试使用名称为Names.rm
的向量对数据帧进行子集设置,但我不断获得返回0行的数据帧(尽管名称存在于My_Data中)。
这些是我尝试过的:
My_Data[My_Data$Author_name %in% Names.rm, ]
subset(My_Data, Author_name %in% Names.rm)
编辑:
对不起,我不确定格式化数据的正确方法,但我将尝试给出一个示例:
My_Data
:
Author Time.period Gender
8 AERTS R Rien ECOLOGY 2001-2005 M
10 AGRAWAL AA Anurag ECOLOGY 2001-2005 M
12 AINSLIE G George NEUROSCIENCES 2001-2005 M
73 BLOB RW Richard ZOOLOGY 2001-2005 M
Names.rm
:
1 AERTS R Rien ECOLOGY
2 BLOB RW Richard ZOOLOGY
使用的代码:My_Data[My_Data$Author %in% Names.rm, ]
预期输出:
Author Time.period Gender
8 AERTS R Rien ECOLOGY 2001-2005 M
73 BLOB RW Richard ZOOLOGY 2001-2005 M
实际输出(当尝试使用整个数据框时):
[1] Author Time.period Gender
<0 rows> (or 0-length row.names)
编辑2: 好的,所以它在那里可以处理该数据子集,但是当我尝试对整个数据集进行操作时却无法正常工作。您可以执行此操作的数据集大小是否有限制?
我读过: Selecting columns in R data frame based on those *not* in a vector 和 Select rows from a data frame based on values in a vector