我找不到回答这个问题的任何内容,所以如果重复,我会道歉。我也不确定如何说出来。
这是我为stackoverflow创建的示例 - 我的真实数据集要复杂得多:
Here is the example dataframe I am using
这背后的想法是这是一个工人的数据集。每个工作人员都有名为name
,age
,State
(他们所在的位置)和State_Lead
的列中的信息,这是一个布尔列,表示他们是否是负责State
的工人。
我的目标是双重的 - 我想要一个代码
1)引用State
和State_Lead
列,每State_Lead =TRUE
需要1(非零,不是> 1)State
。如果有多于或少于1,我想随机化每个State
中的人变为State Lead
2)为每个State_Lead=TRUE
调出当前State
。理想情况下,我可以引用State
并且能够从State_Lead
的行调用任何内容(其中行的名称与Name
列相同)。
#I made Jack not the state lead so the goal should be to return James and Jill
Database["Jack", "State_Lead"]=FALSE
All_States <- unique(Database$State)
All_States
##Here I thought I could cycle through each state and return the rows that matched each State Leader
heads <- NULL
for(i in All_States){
heads <- append( heads, Database[, "State"==i])
}
heads
## heads just returns "list()"
###attempt 2
heads <- NULL
for(i in All_States){
if (sum(Database[Database[,"State"==i], "State_Lead"]) = 1)
heads <-append(heads, Database[,"State"==i], "State_Lead"])
else Database$State==i <- NA
all_in_state <- subset(Database[, State="i"])
sample(all_in_state, 1)
}
答案 0 :(得分:2)
好吧,看起来你对整个编程肯定是全新的,而不仅仅是R.所以首先,我强烈建议你查看Coursera上的一些MOOC,例如this one。但是,至于你的问题,让我们看一下似乎引起混淆的每一部分。
首先,在本网站上寻求帮助时,最好提供实际数据,而不是数据集的图片。鉴于您已经在R中使用了一个数据框,您可以轻松利用dput
函数,然后将其复制到您的问题中。因此,例如,您可能拥有以下数据框:
df = data.frame(name=c("John", "Jim", "Sally"), state=c("MI", "FL", "NY"), state_leader=c(TRUE, FALSE, TRUE))
df
name state state_leader
1 John MI TRUE
2 Jim FL FALSE
3 Sally NY TRUE
然后我们可以使用dput(df)
并获得以下输出:
dput(df)
structure(list(name = structure(c(2L, 1L, 3L), .Label = c("Jim",
"John", "Sally"), class = "factor"), state = structure(c(2L,
1L, 3L), .Label = c("FL", "MI", "NY"), class = "factor"), state_leader = c(TRUE,
FALSE, TRUE)), .Names = c("name", "state", "state_leader"), row.names = c(NA,
-3L), class = "data.frame")
我们这些Stack Overflow现在可以从dput复制输出并拥有数据集的工作副本。
接下来,让我们看看您对如何在数据集中设置新值的困惑。在您的更新文本中,您尝试使用以下代码state_leader
将FALSE
设置为df["John", "state_leader"] = FALSE
。这有两个原因:1)&#34; John&#34;并不指向任何事情。当你只是说&#34; John&#34;时,R不知道你的意思。 2)即使假设索引逻辑的第一部分是正确的,只需简单地输入&#34; state_leader&#34;在索引的第二部分中,您告诉R您希望整个列等于FALSE
。做你想做的事的正确方法是使用以下内容。
df[df$name == "John", "state_leader"] = FALSE
这样,R知道你希望变量name
等于&#34; John&#34;。
所以,现在我们已经拥有了它,现在可能是查看[
运算符并理解其工作原理的好时机。因为您在理解索引的工作原理时,尝试查找值的复杂算法并不像您想象的那么复杂。
如果R中有一维对象,例如向量,[
将获取一个参数。如果您有二维对象,例如数据框或矩阵,[
将获取两个参数,其中一个参数是可选的。让我们看一些例子。
x = 1:10 # A one-dimensional vector
x[1:3] # Get the first three elements of x
x[c(1, 3, 5, 7, 9)] # Get all odd elements of x
x[x %% 2 != 0] # Get all odd elements of x
在上面的例子中,我们正在使用一维向量。我们执行的三个操作突出显示了关于[
的几个关键点。第一个关键点是[
期望数字输入,或者可以转换为数字输入的东西。其次,数字输入不必是连续的。最后,数字输入可以是返回数字结果的函数,例如x %% 2 != 0
。最后一个例子非常适合用于演示我的意思,可以转换为数字输入&#34;。您可以通过以下方式考虑这一点:首先,R计算x %% 2
。然后检查每个元素以查看它是否等于0,这将返回一个布尔值等于TRUE
或FALSE
的向量。然后它检查哪些值是TRUE
并返回索引的矢量等于c(1, 3, 5, 7, 9)
,这与我们的第二个例子相同。
现在,让我们看看df
,了解[
如何处理二维对象。使用2D对象时,[
的第一个参数会告诉您需要哪些行,第二个参数会告诉您需要哪些列。
df[df$name == "John", ] # Get all rows where name equals "John" and ALL columns
df[, c(1, 3)] # Get all rows and only the first and third column
df[grepl("^J", df$name), 3] # Get all rows with names that start with "J" and only the third column
正如我们在前两个示例中所见,您不需要为[
中的每个参数提供值。如果将其中一个值留空,则默认为从对象返回所有可用的行或列。您还会注意到,即使我们正在指定行,例如df[df$name == "John", ]
,我们也会专门调用列名称。这是因为我们需要R来理解我们要检查哪一列以确定我们是否保留该行。最后,您还应该注意到,我们之前对一维对象中[
的所有理解都存在于此。它需要一个数字输入,或一个可以转换为数字输入的输入。因此,在第一个示例中,df$name == "John"
将生成值为c(TRUE, FALSE, FALSE)
的布尔向量,然后R将检查哪些值为TRUE
并返回值1
,表示只有第一行符合该条件。
现在,我们了解了[
的工作原理,让我们看看如何使用它来解决我们的问题。我们知道我们需要所有列,因此我们可以忽略[
中的第二个参数。我们知道我们只想要state_leader
为TRUE
的行。因此,让我们在索引中使用该条件。
df[df$state_leader == TRUE, ]
name state state_leader
1 John MI TRUE
3 Sally NY TRUE
作为一项练习,您只需返回name
和state
变量,如何才能更好地提高输出效果?