Question

我的一个同事的文件夹/目录中充满了sql个陈述。该文件夹也由他每天更新。我想为期货同事记录这些sql陈述。但是，我正在寻找一种“自动化”该过程的方法。我想每周使用crontab一次并运行R-Markdown文件，该文件会自动更新现有的R-Markdown文件。

我的方法如下：

path = "c:/SQL_files/"
out.file<-""
file.names <- dir(path, pattern =".sql") # here I changed `.txt` to `.sql`
for(i in 1:length(file.names)){
file <- read.csv2.sql(file.names[i],header=TRUE, sep=";",    stringsAsFactors=FALSE)
  out.file <- rbind(out.file, file)
}


# That second approach comes very close, but just generates a `.txt` for the first
#`.sql` file in the directory with the error:

   Error in match.names(clabs, names(xi)) : 
   names do not match previous names

文件是：

 [1] "c:/SQL_files/first.sql"                                            
 [2] "c:/SQL_files/second.sql"     

 path = "c:/SQL_files/"
 out.file<-""
files <- list.files(path=path, pattern="*.sql", full.names=T, recursive=FALSE)
for(i in 1:length(files)){
  file <- read.table(files[i],header=TRUE, sep=";", stringsAsFactors=FALSE)
  out.file <- rbind(out.file, file)
}

提取loop内容的.sql似乎根本不捕获内容（在第一个示例中）或仅捕获目录中第一个文件的内容（第二个示例）。所以我的问题。有没有办法从SQL Text File (.sql)中提取内容？这可能导致.txt/.Rmd如下:(但不必）：

第一个循环的输出：my_sql_statement.sql

第二个循环的输出：Select * From Data

Answer 1

此RMD文件生成一个markdown / HTML文档，列出一些元数据和指定的所有文件的内容：

---
title: "Collection of SQL files"
author: "SQLCollectR"
date: "`r format(Sys.time(), '%Y-%m-%d')`"
output: 
  html_document: 
    keep_md: yes
---

```{r setup, echo = FALSE}
library(knitr)
path <- "files/"
extension <- "sql"
```

This document contains the code from all files with extension ``r extension`` in ``r paste0(getwd(), "/", path)``.

```{r, results = "asis", echo = FALSE}
fileNames <- list.files(path, pattern = sprintf(".*%s$", extension))
fileInfos <- file.info(paste0(path, fileNames))

for (fileName in fileNames) {
  filePath <- paste0(path, fileName)
  cat(sprintf("## File `%s` \n\n### Meta data \n\n", fileName))
  cat(sprintf(
    "| size (KB) | mode | modified |\n|---|---|---|\n %s | %s | %s\n\n", 
    round(fileInfos[filePath, "size"]/1024, 2), 
    fileInfos[filePath, "mode"],
    fileInfos[filePath, "mtime"]))
  cat(sprintf("### Content\n\n```\n%s\n```\n\n", paste(readLines(filePath), collapse = "\n")))
}

```

所有工作都在for循环中完成，循环遍历path中名称以extension结尾的所有文件。对于每个文件，一个包含＆＃34;元数据的表＆＃34;打印，然后是实际的文件内容。使用file.info检索元数据，包括文件大小，模式和上次修改的时间戳。

包含markdown的cat(sprintf(...构造使代码看起来很复杂，但事实上它很简单。

样本输出

将SQL文件与this answer中的SQL语句一起使用，上面的RMD文件生成以下输出（使用HTML作为输出格式）：

Answer 2

为了从不代表分隔表的文本文件中读取内容，您可能需要使用readLines而不是read.table。执行此操作的R方式将使用lapply：

files <- list.files(path=path, pattern="*.sql", full.names=T, recursive=FALSE)
out.files <- lapply(files,readLines)

这将为您提供一个包含字符向量的列表（每个元素都是文件的一行）。

编辑：

要回答问题的其余部分，可以使用writeLines将此类数据转换为单个文本文件。

names(out.files)<-files
printer = file("out.sql","w");
lapply(files,function (x) 
{
   writeLines(x,printer);
   writeLines(out.files[[x]],printer);
})
close(printer)

如果您在R中进行其他操作，我只会这样做，否则有更简单的方法将一堆文件附加到一个文件中。

如何使用R提取SQL文件的内容？

2 个答案:

样本输出