我正在将SQL代码转移到R。
我有一个数据集,想要从新列中的列中提取第一个单词。
数据集
df
Col_A ColB
ABC JEn JDn 9
nemmdn mend 10
pwek ne me ne 12
预期输出:
Col_A ColB Col_A_Abbreviation
ABC JEn JDn 9 ABC
nemmdn mend 10 nemmdn
pwek ne me ne 12 pwek
以下是我目前所拥有的:
library(DBI)
library(RSQLite)
mydb <- dbConnect(RSQLite::SQLite(), "")
dbWriteTable(mydb, "df_1", df)
dbGetQuery(mydb,
'SELECT IF(INSTRB(Col_A, \' \', 1, 1) >0,
SUBSTR(Col_A, 1, INSTRB(Col_A, \' \', 1, 1) - 1),
Col_A) AS Col_A_Abbreviation FROM df_1')
这是我的错误消息:
Error in result_create(conn@ptr, statement) : no such function: IF
RSQLite在可以使用的功能上有限制吗?
答案 0 :(得分:1)
1)sqldf / RSQLite 如果使用的是SQLite后端,则只能使用RSQLite支持的功能。尝试执行此操作,在结尾处的注释中可重复定义df
。
library(sqldf)
sqldf("select
*,
substr([Col_A], 1, instr([Col_A], ' ') - 1) FirstWord
from df")
给予:
Col_A ColB FirstWord
1 ABC JEn JDn 9 ABC
2 nemmdn mend 10 nemmdn
3 pwek ne me ne 12 pwek
1a)(如果可能只有一个词存在条目,请在末尾添加一个空格,以确保始终至少有一个空格可以匹配。
sqldf("select
*,
substr([Col_A], 1, instr([Col_A] || ' ', ' ')-1) FirstWord
from df")
2)Base R
在基数R中删除第一个空格及其后的所有内容:
transform(df, FirstWord = sub(" .*", "", Col_A))
df <-
structure(list(`Col_A` = c("ABC JEn JDn", "nemmdn mend", "pwek ne me ne"
), `ColB` = c(9L, 10L, 12L)), class = "data.frame", row.names = c(NA,
-3L))
答案 1 :(得分:0)
除了Clemsang的评论外,为什么从数据集中获取结果后不使用strsplit()
?
类似这样的东西:
a <- c("ABC Jen JDn", "nemmdn mend", "pwek ne me ne")
b <- sapply(strsplit(a, " "), "[", 1)