通过文件名和TimeStamp连续导入多个文本文件

时间:2013-09-25 20:10:45

标签: sql sql-server-2012 text-files bulkinsert

我想设置一个自动作业来连续将多个txt文件插入表格中。

我有多个数据记录器可输出多个(每分钟).txt个文件,并按其日期戳记命名,即20130921_1755.txtYYYYMMDD_HHMM.txt)。它们还有一个名为DateStamp的字段,其中包含每条记录的第二个日期值。

我知道我想要查询的内容....

  1. 将目录中的所有文件名插入表ALLFILENAMES
  2. 在最终表TBLMEASUREMENTS
  3. 中选择最长日期
  4. 将最大日期转换为文件名(2013-09-22 17:53:00至“20130922_1753.txt”)
  5. 批量插入所有文件名>表ALLFILENAMES
  6. 的最长日期

    我已经使用此处的帖子启动了该过程: Import Multiple CSV Files to SQL Server from a Folder

    我在尝试解决如何选择需要导入到表中的特定文件时遇到问题。特别是因为这是一项持续的工作,我需要经常查看数据库以查看哪些文件尚未导入,然后导入它们。到目前为止,这是我的代码,可以导入多个文件。

    --some variables
    declare @filename varchar(255),
            @path     varchar(255),
            @sql      varchar(8000),
            @cmd      varchar(1000)
    
    
    --get the list of files to process:
    SET @path = 'C:\SQL_txt\1_hr\'
    SET @cmd = 'dir ' + @path + '*.txt /b'
    INSERT INTO  ALLFILENAMES(WHICHFILE)
    EXEC Master..xp_cmdShell @cmd
    UPDATE ALLFILENAMES SET WHICHPATH = @path where WHICHPATH is null
    
    
    --cursor loop
    declare c1 cursor for SELECT WHICHPATH,WHICHFILE FROM ALLFILENAMES where WHICHFILE like '%.txt%'
    open c1
    fetch next from c1 into @path,@filename
    While @@fetch_status <> -1
      begin
      --bulk insert won't take a variable name, so make a sql and execute it instead:
       set @sql = 'BULK INSERT Temp FROM ''' + @path + @filename + ''' '
           + '     WITH ( 
                   FIELDTERMINATOR = ''\t'', 
                   ROWTERMINATOR = ''\n''
                ) '
    print @sql
    exec (@sql)
    
      fetch next from c1 into @path,@filename
      end
    close c1
    deallocate c1
    

    我一直在玩LEFT,LEN和REPLACE来尝试将最大日期戳转换为文件名,但没有运气。任何帮助或建议都会有用。我错了吗?感谢

1 个答案:

答案 0 :(得分:0)

我会使用SSIS / Data Tools执行此操作。

从“监视”文件夹导入文件,然后使用以下命令将文件移动到其他文件夹:

  • ForEach Loop Container
  • 数据流任务
  • 文件系统任务
  • 派生列(可选,但建议用于源跟踪)

您可以使用派生列中的映射文件路径变量来指示源文件,除非存在多次将相同文件添加到监视文件夹的危险,否则几乎不需要运行“已导入此内容”检查每一次。

有很多关于SSIS的教程,这里有两篇: