从大型CSV文件中提取的随机记录

时间:2015-03-15 14:18:05

标签: csv

我有50个CSV文件,每个文件最多有2百万条记录。

我每天需要从50个文件中的每个文件中获取10000条随机记录,并生成包含所有信息的新CSV文件(10000 * 50)

我不能手动完成,因为我会花费很多时间,也尝试使用Access,但是,因为数据库比2G大,所以我无法使用它。 此外,我尝试使用CSVed - 一个很好的软,但仍然没有帮助我。

有人可以提出一个想法/软件,以便从文件中获取随机记录并制作新的CSV文件吗?

1 个答案:

答案 0 :(得分:3)

您可以使用多种语言,我会使用C#并执行此操作。

1)获取文件中的行数。

Lines in text file

2)根据步骤1中的最大值,生成10,000个随机数(如果需要,则为唯一)。

Random without duplicates

3)从文件中拉出步骤2中的记录并写入新文件。

4)对每个文件重复。

如果你想考虑除Access以外的数据库是MySQL或SQL Server Express来命名一对,那么其他选项。