将SQL Server表导出到多个零件文件

时间:2013-07-13 16:51:09

标签: sql sql-server database hive bcp

我需要将相当大的SQL Server表~100GB导出到CSV文件。但是输出不是单个csv文件,理想情况下应该是多个文件,即10个文件,每个10GB。

我看到BCP有一个batch_size参数,但这仍然会将所有数据写入单个文件?是否有其他免费的公用事业可以满足我的需求?文件大小可以以字节还是以行数指定的位置?

对于一些上下文,这是因为数据可以与Hive / Hadoop平台中的其他源组合,所以如果有更好的方法可以导出数据,我可以提供建议。

4 个答案:

答案 0 :(得分:6)

我认为您可以将SQL 2012的分页函数OFFSETFETCH与bcp结合使用:

SELECT *
FROM Table
ORDER BY ID --Primary Key
OFFSET 100000001 ROWS
FETCH NEXT 100000000 ROWS ONLY

答案 1 :(得分:6)

不幸的是,BCP的batch_size参数不控制输出。

我做过这种分裂的方式:

1 - 简单但不可重复:创建一个命令文件(.cmd),在表格上运行多个BCP以获取特定的行范围。这可能需要基于IDENTITY(1,1)的主键。

bcp "SELECT * FROM MyTable WHERE Id BETWEEN 0 AND 10000000" queryout …  
bcp "SELECT * FROM MyTable WHERE Id BETWEEN 10000000 AND 20000000" queryout …   

2 - 简单且可重复,将整个表中的大量磁盘BCP用于单个文件,并使用split根据需要创建任意数量的新文件每个字节中给定的字节数(注意:按行分割将是一个更好的主意IMO)。使用'Cygwin'(不再维护GnuWin32)来安装split以及您想要的任何其他实用程序。

 bcp MyDb.MySchema.MyTable out C:\MyFile.csv -T -w  
 split -b 10737418240 C:\MyFile.csv C:\MySplitFile_  

生成以下文件

 C:\MySplitFile_aaa
 C:\MySplitFile_aab
 …

3 - 复杂但可重复,需要可能不安全的T-SQL:使用xp_cmdshell函数在遍历表的存储过程中调用BCP。

 DECLARE @loop AS INT;   
 --Use WHILE to loop as needed--   
 DECLARE @sql AS VARCHAR(MAX);   
 --Add code to generate dynamic SQL here--   
 DECLARE @bcp AS VARCHAR(MAX);   
 SELECT @bcp='BCP "'+@sql+'" queryout C:\MyFolder\MyFile_'+@loop+'.csv';   

最后注意:如果您在数据中使用任何NVARCHAR字段,则需要使用-w标志并注意输出将为UTF-16LE。我强烈强烈建议使用iconv(再次来自'Cygwin')将其转换为UTF-8,然后再尝试在Hadoop中对其进行任何操作。

答案 2 :(得分:3)

如果您有一个可排序的主键字段,您可以找到定义所需行的边界的键,然后使用定义边界的WHERE选择SELECT记录。

这与Joe为#1所做的类似,但你的密钥不需要是连续的也不是数字的。以下是一个简单的例子:

DECLARE @maxrowsperfile AS bigint = 1048576
DECLARE boundaries CURSOR FOR
    SELECT the_sortable_key
    FROM
    (
        SELECT
            the_sortable_key
            , ROW_NUMBER() OVER(ORDER BY the_sortable_key) AS the_row_number
        FROM the_table
    ) AS t
    WHERE the_row_number % @maxrowsperfile = 0

OPEN boundaries

DECLARE @lowerbound AS [key type] = [value A]
DECLARE @upperbound AS [key type] = [value A]

FETCH NEXT FROM boundaries
INTO @upperbound

IF @lowerbound = @upperbound
    PRINT 'bcp "SELECT * FROM the_table" queryout file -w -T'
ELSE
    DECLARE @filecount AS int = 1
    BEGIN
        WHILE @@FETCH_STATUS = 0
        BEGIN
            PRINT 'bcp "SELECT * FROM the_table WHERE key > ' + CAST(@lowerbound AS varchar) + ' AND key <= ' + CAST(@upperbound AS varchar) + ' queryout file_' + CAST(@filecount AS varchar) + ' -w -T'
            SET @filecount = @filecount + 1
            SET @lowerbound = @upperbound
            FETCH NEXT FROM boundaries
            INTO @upperbound
        END
        PRINT 'bcp "SELECT * FROM table WHERE key > ' + CAST(@lowerbound AS varchar) + ' queryout file_' + CAST(@filecount AS varchar) + ' -w -T'

    END
CLOSE boundaries
DEALLOCATE boundaries

答案 3 :(得分:1)

我会首先导出文件,然后在外部进行分割。假设您在Windows机器上运行,那里有几个“免费软件”工具可以提供帮助。有关详细信息,请参阅超级用户上的this other answer