首先-谢谢您抽出宝贵时间来查看我的问题,无论您是否回答!
我正在尝试创建一个函数,该函数遍历我的df并使用R中的RODBC包从SQL查询必要的数据。但是,由于每次查询的参数都不同,因此我无法设置查询迭代(下面的示例)
所以我的df看起来像这样:
ID Start_Date End_Date
1 2/2/2008 2/9/2008
2 1/1/2006 1/1/2007
1 5/7/2010 5/15/2010
5 9/9/2009 10/1/2009
如何在sql程序中指定开始日期和结束日期?
这是我到目前为止所拥有的:
data_pull <- function(df) {
a <- data.frame()
b <- data.frame()
for (i in df$id)
{
dbconnection <- odbcDriverConnect(".....")
query <- paste("Select ID, Date, Account_Balance from Table where ID = (",i,") and Date > (",df$Start_Date,") and Date <= (",df$End_Date,")")
a <- sqlQuery(dbconnection, paste(query))
b <- rbind(b,a)
}
return(b)
}
但是,这不会查询任何内容。我认为这与我指定迭代的开始日期和结束日期有关。
如果有人可以提供帮助,将不胜感激。如果您需要进一步的解释,请随时询问!
答案 0 :(得分:1)
当前设置会引起一些语法问题:
LOOP:您无需遍历数据帧的所有行,而仅遍历df$ID
列中的原子ID值。在同一循环中,您将df$Start_Date
和df$End_Date
的整个向量传递给查询串联。
日期:您的日期格式与大多数数据库日期格式“ YYYY-MM-DD”不一致。还有其他一些类似Oracle的产品,您需要将字符串转换为数据:TO_DATE(mydate, 'YYYY-MM-DD')
。
前面提到的几个性能/最佳实践问题:
参数化:出于安全原因不需要参数化,因为您的值不是由可以注入恶意SQL代码的用户输入生成的,出于可维护性和可读性考虑,建议您进行参数化查询。因此,请考虑这样做。
增长的对象:根据Patrick Burn的Inferno 第2圈:增长的对象,R程序员应避免在循环内增长多维对象,例如数据帧,这可能会导致过多的增长。复制到内存中。取而代之的是,在循环外rbind
一次建立数据帧列表。
话虽如此,您可以通过将数据帧另存为数据库表,然后将其联接到最终表以进行过滤的联接查询导入来避免任何循环或列出需求。假设您的数据库用户具有CREATE TABLE
和DROP TABLE
特权。
# CONVERT DATE FIELDS TO DATE TYPE
df <- within(df, {
Start_Date = as.Date(Start_Date, format="%m/%d/%Y")
End_Date = as.Date(End_Date, format="%m/%d/%Y")
})
# SAVE DATA FRAME TO DATABASE
sqlSave(dbconnection, df, "myRData", rownames = FALSE, append = FALSE)
# IMPORT JOINED AND DATE FILTERED QUERY
q <- "SELECT ID, Date, Account_Balance
FROM Table t
INNER JOIN myRData r
ON r.ID = t.ID
AND t.Date BETWEEN r.Start_Date AND r.End_Date"
final_df <- sqlQuery(dbconnection, q)