Question

我正在使用C＃并将数据写入csv文件（供进一步使用）。然而，我的文件已经发展成大规模，我必须转置它们。什么是最简单的方法。在任何程序？

吉尔

Answer 1

按复杂程度递增的顺序（以及处理大文件的能力增加顺序）：

将整个事物读入二维数组（或锯齿状数组，即数组数组）。
- 所需内存：等于文件大小

跟踪每行中的文件偏移量。首先找到每个（未引用的）换行符，将当前位置存储到List<Int64>。然后迭代所有行，每行：寻找保存的位置，将一个单元格复制到输出，保存新位置。重复直到用完列（所有行都到达换行符）。
- 所需内存：每行8个字节
- 频繁的文件分散在比磁盘缓存大得多的文件中，导致磁盘抖动和性能惨淡，但它不会崩溃。

如上所述，但是对8k行。这将创建一组文件，每个文件有8k列。输入块和输出都适合磁盘缓存，因此不会发生抖动。构建条带文件后，遍历条带，从每个条带读取一行并附加到输出。重复所有行。这导致对每个文件进行顺序扫描，这也具有非常合理的缓存行为。
- 需要内存：第一遍为64k，第二遍为（列数/ 8k）文件描述符。
- 每个维度中表格数量高达数百万的表现良好。对于更大的数据集，只需将几个（例如1k）条带文件组合在一起，制作一组较小的较大条带，重复，直到只有一个条带，所有数据都在一个文件中。

最终评论：您可以通过使用C ++（或任何具有适当指针支持的语言），内存映射文件和指针而不是文件偏移来挤出更多性能。

Answer 2

这取决于。你是从数据库中得到这些吗？您可以使用MySql import语句。 http://dev.mysql.com/doc/refman/5.1/en/load-data.html

或者你可以使用can循环数据使用streamwriter对象将其添加到文件流中。

StreamWriter sw = new StreamWriter('pathtofile');
foreach(String[] value in lstValueList){
String something = value[1] + "," + value[2];
sw.WriteLine(something);
}

Answer 3

我在python中写了一个小概念验证脚本。我承认它有问题，可能会有一些性能改进，但它会做到这一点。我针对40x40文件运行它并获得了预期的结果。我开始针对更像你的示例数据集运行它，我花了太长时间等待。

path = mkdtemp()
try :
    with open('/home/user/big-csv', 'rb') as instream:
        reader = csv.reader(instream)        
        for i, row in enumerate(reader):
            for j, field in enumerate(row):                
                with open(join(path, 'new row {0:0>2}'.format(j)), 'ab') as new_row_stream:
                    contents = [ '{0},'.format(field) ]
                    new_row_stream.writelines(contents)
            print 'read row {0:0>2}'.format(i)
    with open('/home/user/transpose-csv', 'wb') as outstream:
        files = glob(join(path, '*'))
        files.sort()
        for filename in files:
            with open(filename, 'rb') as row_file:
                contents = row_file.readlines()          
                outstream.writelines(contents + [ '\n' ]) 
finally:
    print "done"
    rmtree(path)

使用C＃或其他程序转置csv文件

3 个答案: