Question

我正在将SQL代码转移到R。

我有一个数据集，想要从新列中的列中提取第一个单词。

数据集

 df

        Col_A    ColB
  ABC JEn JDn       9
  nemmdn mend      10
pwek ne me ne      12

预期输出：

        Col_A    ColB    Col_A_Abbreviation
  ABC JEn JDn       9                   ABC
  nemmdn mend      10                nemmdn
pwek ne me ne      12                  pwek

以下是我目前所拥有的：

library(DBI)
library(RSQLite)
mydb <- dbConnect(RSQLite::SQLite(), "")
dbWriteTable(mydb, "df_1", df)

dbGetQuery(mydb, 
'SELECT IF(INSTRB(Col_A, \' \', 1, 1) >0, 
SUBSTR(Col_A, 1, INSTRB(Col_A, \' \', 1, 1) - 1), 
Col_A) AS Col_A_Abbreviation FROM df_1')

这是我的错误消息：

Error in result_create(conn@ptr, statement) : no such function: IF

RSQLite在可以使用的功能上有限制吗？

Answer 1

1）sqldf / RSQLite 如果使用的是SQLite后端，则只能使用RSQLite支持的功能。尝试执行此操作，在结尾处的注释中可重复定义df。

library(sqldf)
sqldf("select 
    *, 
    substr([Col_A], 1, instr([Col_A], ' ') - 1) FirstWord 
  from df")

给予：

          Col_A ColB FirstWord
1   ABC JEn JDn    9       ABC
2   nemmdn mend   10    nemmdn
3 pwek ne me ne   12      pwek

1a）（如果可能只有一个词存在条目，请在末尾添加一个空格，以确保始终至少有一个空格可以匹配。

sqldf("select 
    *, 
    substr([Col_A], 1, instr([Col_A] || ' ', ' ')-1) FirstWord 
  from df")

2）Base R

在基数R中删除第一个空格及其后的所有内容：

transform(df, FirstWord = sub(" .*", "", Col_A))

注意

df <-
structure(list(`Col_A` = c("ABC JEn JDn", "nemmdn mend", "pwek ne me ne"
), `ColB` = c(9L, 10L, 12L)), class = "data.frame", row.names = c(NA, 
-3L))

Answer 2

除了Clemsang的评论外，为什么从数据集中获取结果后不使用strsplit()？

类似这样的东西：

a <- c("ABC Jen JDn", "nemmdn mend", "pwek ne me ne")
b <- sapply(strsplit(a, " "), "[", 1)

仅在列RSQLite中保留第一个单词

2 个答案:

注意