我确信这很简单,我认为这是使用单独和收集的情况。
我在数据框,作者列表和发布搜索的编辑导出中有一个字段。它包含出版物的作者。显然,它可以包含一个作者或一个作者合作。
例如,这只是可用选项的选择:
Author
Drijgers RL, Verhey FR, Leentjens AF, Kahler S, Aalten P.
我想做的是创建所有作者的单个列表,这样我就可以得到类似的东西
Author
Drijgers RL
Verhey FR
Leentjens AF
Kahler S
Aalten P
我该怎么做? 我以为会是这样
authSpread<-authorlist%>%separate(Author,sep =",",extra ="drop")
但是它不起作用。 如果我输入=“ NA” 我只在第一栏中列出第一批作者。 我想做的是在excel中将文本复制到列功能,您可以在其中指定要分割的字符,并将单元格的内容强制转换/扩展到新的单元格。然后将它们重新合并为一列。 我不知道作者的最大数量,因此也不知道以编程方式划分(或如何标记它们)的列数。
编辑:澄清 我不知道是否要制作一个较长的数据帧然后收集-因为我不知道会生成多少个字段。这是明智的事情吗? 我想我可以将“,”分隔的输出写到一个列表中,然后将该列表的内容写为单个数据帧。 听起来更有效率吗?
答案 0 :(得分:2)
您正在寻找separate_rows
。
输入:
df <- data.frame(authors = c("Drijgers RL, Verhey FR, Leentjens AF, Köhler S, Aalten P."))
authors
1 Drijgers RL, Verhey FR, Leentjens AF, Köhler S, Aalten P.
功能:
library(tidyverse)
df %>% separate_rows(authors, sep = ", ")
输出:
authors
1 Drijgers RL
2 Verhey FR
3 Leentjens AF
4 Köhler S
5 Aalten P.
您可以将它们保存在这样的列表中:
authors_list <- df %>% separate_rows(authors, sep = ", ") %>% pull(authors)
输出:
[1] "Drijgers RL" "Verhey FR" "Leentjens AF" "Köhler S" "Aalten P."
如果您的列表中有多篇文章的作者,并且只希望出现独特的内容,只需在末尾添加unique()
:
authors_list <- df %>% separate_rows(authors, sep = ", ") %>% pull(authors) %>% unique()