我有一个相当复杂的数据库,我以CSV格式提供给我的客户端。到达该数据库的逻辑是Python处理和在sqlite3中完成的SQL连接的复杂组合。
有大约15个源数据集,从几百条记录到几百万条(但相当短)的记录。
为了清晰,可维护性和其他几个原因而不是混合使用Python / sqlite3逻辑,我希望将所有逻辑移动到一组有效的Python脚本并完全绕过sqlite3。
我理解答案和路径将是熊猫,但是请你告诉我这是否适合像上述那样的大型数据库?
答案 0 :(得分:1)
我一直在使用Pandas数据集>大小为20 GB(在具有8 GB RAM的Mac上)。
我的主要问题是知道bug in Python使得无法在OSX上编写大于2 GB的文件。但是,使用HDF5会绕过它。
我发现this和this文章中的提示足以让所有内容都能正常运行。主要课程是检查数据框的内存使用情况,并将列的类型转换为尽可能小的数据类型。