Question

所以，我目前处理大量数据（62个文件，每个约150mb，每个约350万行），我需要将这些平面文件上传到MySQL数据库，所以我用pandas库来读取.csv文件并生成一个包含所有数据的数据框。

关于数据：

数据被分成多个文件，因为每个文件都包含有关不同日期特定位置（坐标）的信息。例如：一个文件包含特定日期约350万个坐标的数据（这些坐标在所有文件中是固定的和通用的），我有62个这样的文件意味着62个不同日期的数据。
我想在一个表中看到所有这些数据，即我想将额外的列（对应于位置列表的不同日期的信息）添加到表中，并且常见的列（位置/坐标）应该只出现一次在这张表中。我希望表格中的数据如何显示here

直到现在我的代码看起来像这样：

#relevant imports:
import os
import MySQLdb as sql
import numpy as np
from functools import reduce
from sqlalchemy import create_engine
import glob
import pandas as pd

#Accessing database:
engine = create_engine("mysql://root:PASSWORD@localhost/DBNAME")
con = engine.connect()

#Directory change:

path="C:\\Users\\DELL\\Desktop\\DataAnalysis-Internship 18'\\extracted data\\"
os.chdir(path)

#listing file names:
files=glob.glob("IN.201*.csv")
num_files=len(files)

#DATAFRAMES:
#initialiasing first dataframe:
df=pd.read_csv(path+files[0])
df.rename(columns={"avg":"avg"+str(0)}, inplace=True)

for file in files[1:]:
  i=1
  df_next=pd.read_csv(path+file)
  df_next.rename(columns={"avg":"avg"+str(i)}, inplace=True)
  df=df.merge(df_next, on=['lon','lat','country'])
  i=i+1

df.to_sql(con=con, name='final_table', if_exists='replace', chunksize=10000)

con.close()

当我运行此代码时，我的电脑开始执行命令，慢慢地性能下降，最终PC开始挂起。可能有太多内存被耗尽，可能是因为我正在制作一个数据帧，然后将其传输到数据库（我不确定）。

我现在应该怎样做以我想要的方式将所有这些文件上传到我的桌子？有更优化的方式吗？我想过一次合并并制作5个文件中的表，然后使用属性＆＃34; if_exists =＆＃39;追加＆＃39;＆＃34; in＆＃39; to_sql＆＃39;命令将这些多个数据帧连接到一个表中，而不是制作一个巨大的数据帧然后传输它，但我不确定＆＃39;追加＆＃39;关于它是否会以我想要的方式连接表的属性。

Answer 1

我的猜测是问题出现在循环中出现df = df.merge

永远不要在for循环中调用DataFrame.append或pd.concat。它导致二次复制。资料来源：Why does concatenation of DataFrames get exponentially slower?

尝试将所有数据框添加到列表df_list中，然后在最后将连接到

：

import pandas as pd df_list = [] df_list.append(pd.DataFrame(dict(a=[1, 2, 3], b=[4, 5, 6]))) df_list.append(pd.DataFrame(dict(c=[1, 2, 3], d=[4, 5, 6]))) pd.concat(df, axis=1) Out[]: a b c d 0 1 4 1 4 1 2 5 2 5 2 3 6 3 6

使用to_sql

1 个答案: