我有30个txt文件,每行260万行,每列150列。是交易银行数据。我需要管理它( 7800万行)来为每个客户端创建变量。我在我的个人电脑(i7和8gb ram)工作。 我使用批量插入将一个文件导入到我的本地microsoft sql 2000中。花了5分钟。我创建了一个聚集索引并尝试导入另一个索引。它运行超过25分钟并没有结束。我是否必须删除索引并再次导入?这会更快吗? 此外,只加载了第一个txt,简单的计数(id)需要2分钟。
如何有效地处理这些数据(我也是R和Python用户)?
此外,大多数字段都是数字,但有时会有像**这样的符号,所以我用char字段创建了目标表,我认为这会使事情变慢。有办法解决这个问题吗?