Question

我使用sqldf函数重复连接表的一个子集。重复过程发生在for循环中。我已经读过添加索引可以提高这些联接的效果here。

我的问题是 - 如果我在循环中反复这样做，这是否意味着我必须在每次循环执行时重新创建索引，或者是否有办法使索引“持续”＃39 ;在循环之外但是在循环中使用？

换句话说，我只看过这个版本：

for(i in 1:10){
   df1 <- sqldf(c('create index...','select * from table1'))
}

有没有办法做这样的事情：

df1 <- sqldf('create index...') # create index outside of loop

for(i in 1:10){
   df2 <- sqldf('select * from t1 left join t2 on t1.col1 = t2.col1')
}

编辑：

> sqldf() 
NULL
> 
> sqldf("create index idx on iris(Species)") ## 
data frame with 0 columns and 0 rows
> sqldf("select count(*) from main.iris where Species = 'virginica'") ##
Error in rsqlite_send_query(conn@ptr, statement) : 
  no such table: main.iris
> sqldf("select count(*) from main.iris where Species <> 'virginica'") ##
Error in rsqlite_send_query(conn@ptr, statement) : 
  no such table: main.iris
> 
> sqldf()
<SQLiteConnection>
  Path: :memory:
  Extensions: TRUE
>

EDIT_2：

> sqldf() 
NULL
> # close an old connection if it exists
>    if (!is.null(getOption("sqldf.connection"))) sqldf()
> sqldf() 
<SQLiteConnection>
  Path: :memory:
  Extensions: TRUE
> sqldf("create index idx on iris(Species)") ## 
data frame with 0 columns and 0 rows
> sqldf("select count(*) from main.iris where Species = 'virginica'") ##
  count(*)
1       50
> sqldf("select count(*) from main.iris where Species <> 'virginica'") ##
  count(*)
1      100
> sqldf() 
NULL

Answer 1

sqldf的无参数形式可用于打开和关闭连接，以便中间sqldf语句都可以使用相同的连接。

请注意，我们可以参考表x作为main.x来引用已上传的表格版本;否则，每个sqldf会尝试再次上传。您还可以考虑将verbose = TRUE参数添加到标记为##的语句中以查看正在进行的操作。

library(sqldf)

sqldf() 

sqldf("create index idx on iris(Species)") ## 
sqldf("select count(*) from main.iris where Species = 'virginica'") ##
sqldf("select count(*) from main.iris where Species <> 'virginica'") ##

sqldf()

sqldf github home page上有一些例子。

另一种可能性是直接使用RSQLite。

另请注意，您可以生成SQL字符串向量并将整个向量传递给sqldf：sqldf(v)

另一种可能性是使用SQLite递归公用表表达式。谷歌了解更多信息。

请注意，select以外的语句（例如create）会在RSQLite 2.0下发出警告，但仍然会给出正确的结果，因此要么忽略警告，要么使用早期版本的RSQLite。

R sqldf - 循环内/外的索引

1 个答案: