我正在尝试将大型数据集从SQL Server导出到我的本地硬盘以进行一些数据分析。文件大小高达30gb,行数为600万,大约10列。
然后,这些数据将通过python Pandas或Tableau提供,以供消费。我认为文件本身的大小会让我在分析过程中表现不佳。
要分析哪些最佳实践来分析本地计算机上的大数据?
我正在运行带有8gb内存的i7 4570。我希望减少对SQL查询的依赖,并能够离线运行大量分析。
由于数据库的性质,需要一个新的提取物,这个过程必须重复,这意味着不会有太多的附加事件发生。
我已经探索过HDFStores和Tableau Data Extracts,但仍然很好奇我是否可以通过阅读整个CSV文件获得更好的性能。
我可能会错过一种压缩方法吗?同样,这里的目标是在不经常查询服务器的情况下运行分析,源本身(我正在优化)每天早上都会刷新自己,所以当我上任时,我可以专注于获取咖啡和一些快速的分析。
答案 0 :(得分:0)
使用Tableau,您可能希望获取CSV的摘录(查询比CSV快得多)。这应该没问题,因为提取物位于磁盘上。但是,如上所述,您需要在数据更改后创建新的数据提取。
使用Pandas我通常会将所有内容加载到内存中,但如果它不合适,那么您可以使用chunksize
以块的形式读取CSV(请参阅此主题:How to read a 6 GB csv file with pandas)