我有一个500+ MB的CSV数据文件。我的问题是,由于所有工作都映射到SQL查询并将优化留给了优化器,因此Python MySQL client会更快地进行数据处理(例如,读取,处理)。但是,与此同时,Pandas正在处理的文件应该比与服务器进行通信的速度更快?
我已经检查了"Large data" work flows using pandas,Best practices for importing large CSV files,Fastest way to write large CSV with Python和Most efficient way to parse a large .csv in python?。但是,我还没有发现关于Pandas和MySQL的任何比较。
用例:
我正在处理由1,737,123行和8列组成的文本数据集。我正在将此数据集馈入RNN / LSTM网络。我会在喂食之前进行一些预处理,这是使用自定义编码算法进行编码的。
更多详细信息
我要进行250多次实验,并尝试12种架构(不同的模型设计)。
我很困惑,我觉得我想念一些东西。
答案 0 :(得分:1)
没有在线比较,因为这两种情况给出了不同的结果:
Dataframe
(作为NumPy ndarray
在后台),可以作为本地Python对象进行访问因此,性能取决于
例如: