我正在构建一个应用程序,它可以对大型数据集进行一些非常简单的分析。这些数据集以1000万行以上,约30列的CSV文件格式提供。 (我不需要很多列。)
逻辑告诉我,整个文件放入DataFrame应该可以更快地访问。但是我的电脑说不。
我尝试批量加载,以及加载整个文件,然后批量执行功能。
但是最终结果是,执行同一过程所需的时间比使用简单的文件读取选项要多10倍。
这是DataFrame版本:
def runProcess():
global batchSize
batchCount = 10
if rowLimit < 0:
with open(df_srcString) as f:
rowCount = sum(1 for line in f)
if batchSize < 0:
batchSize = batchSize * -1
runProc = readFileDf
else:
runProc = readFileDfBatch
batchCount = int(rowCount / batchSize) + 1
else:
batchCount = int(rowLimit / batchSize) + 1
for i in range(batchCount):
result = runProc(batchSize, i)
print(result)
def readFileDfBatch(batch, batchNo):
sCount = 0
lCount = 0
jobStartTime = datetime.datetime.now()
eof = False
totalRowCount = 0
startRow = batch * batchNo
df_wf = pd.read_csv(df_srcString, sep='|', header=None, names=df_fldHeads.split(','), usecols=df_cols, dtype=str, nrows=batch, skiprows=startRow)
for index, row in df_wf.iterrows():
result = parseDfRow(row)
totalRowCount = totalRowCount + 1
if result == 1:
sCount = sCount + 1
elif result == 2:
lCount = lCount + 1
eof = batch > len(df_wf)
if rowLimit >= 0:
eof = (batch * batchNo >= rowLimit)
jobEndTime = datetime.datetime.now()
runTime = jobEndTime - jobStartTime
return [batchNo, sCount, lCount, totalRowCount, runTime]
def parseDfRow(row):
#df_cols = ['ColumnA','ColumnB','ColumnC','ColumnD','ColumnE','ColumnF']
status = 0
s2 = getDate(row['ColumnB'])
l2 = getDate(row['ColumnD'])
gDate = datetime.date(1970,1,1)
r1 = datetime.date(int(row['ColumnE'][1:5]),12,31)
r2 = row['ColumnF']
if len(r2) > 1:
lastSeen = getLastDate(r2)
else:
lastSeen = r1
status = False
if s2 > lastSeen:
status = 1
elif l2 > lastSeen:
status = 2
return status
这是简单的文件读取器版本:
def readFileStd(rows, batch):
print("Starting read: ")
batchNo = 1
global targetFile
global totalCount
global sCount
global lCount
targetFile = open(df_srcString, "r")
eof = False
while not eof:
batchStartTime = datetime.datetime.now()
eof = readBatch(batch)
batchEndTime = datetime.datetime.now()
runTime = batchEndTime - batchStartTime
if rows > 0 and totalCount >= rows: break
batchNo = batchNo + 1
targetFile.close()
return [batchNo, sCount, lCount, totalCount, runTime]
def readBatch(batch):
global targetFile
global totalCount
rowNo = 1
rowStr = targetFile.readline()
while rowStr:
parseRow(rowStr)
totalCount = totalCount + 1
if rowNo == batch:
return False
rowStr = targetFile.readline()
rowNo = rowNo + 1
return True
def parseRow(rowData):
rd = rowData.split('|')
s2 = getDate(rd[3])
l2 = getDate(rd[5])
gDate = datetime.date(1970,1,1)
r1 = datetime.date(int(rd[23][1:5]),12,31)
r2 = rd[24]
if len(r2) > 1:
lastSeen = getLastDate(r2)
else:
lastSeen = r1
status = False
if s2 > lastSeen:
global sCount
sCount = sCount + 1
status = True
gDate = s2
elif l2 > lastSeen:
global lCount
lCount = lCount + 1
gDate = s2
我做错什么了吗?
答案 0 :(得分:0)
.CC
没有利用向量化操作。使用iterrows
的大多数好处来自矢量化和并行操作。
将pandas
替换为for index, row in df_wf.iterrows():
,其中df_wf.apply(something, axis=1)
是封装something
中所需逻辑的函数,并使用iterrows
向量化操作。
如果您的numpy
内存不足,需要批量读取,请考虑在df
上使用dask
或spark
。
进一步阅读:https://pandas.pydata.org/pandas-docs/stable/enhancingperf.html
答案 1 :(得分:0)
关于您的代码的一些注释:
global
变量都吓到我了!传递参数并返回状态有什么问题?Pandas
中的任何功能,只是创建一个数据框以用于对行进行愚蠢的迭代会导致它执行许多不必要的工作csv
模块(可以与delimiter='|'
一起使用)提供了更紧密的界面对于https://codereview.stackexchange.com/
,这可能是一个更好的问题只是玩替代行方式的性能表现。从下面获得的收获似乎是,熊猫的“行明智”工作通常总是很慢
首先创建一个数据框进行测试:
import numpy as np
import pandas as pd
df = pd.DataFrame(np.random.randint(1, 1e6, (10_000, 2)))
df[1] = df[1].apply(str)
这需要3.65毫秒来创建具有int
和str
列的数据帧。接下来,我尝试使用iterrows
方法:
tot = 0
for i, row in df.iterrows():
tot += row[0] / 1e5 < len(row[1])
聚合是非常愚蠢的,我只想要一些使用两个列的东西。耗时长达903ms。接下来,我尝试手动进行迭代:
tot = 0
for i in range(df.shape[0]):
tot += df.loc[i, 0] / 1e5 < len(df.loc[i, 1])
将其降低到408毫秒。接下来,我尝试apply
:
def fn(row):
return row[0] / 1e5 < len(row[1])
sum(df.apply(fn, axis=1))
,在368毫秒时基本相同。终于,我找到了熊猫满意的一些代码:
sum(df[0] / 1e5 < df[1].apply(len))
需要4.15毫秒。还有我想到的另一种方法:
tot = 0
for a, b in zip(df[0], df[1]):
tot += a / 1e5 < len(b)
需要2.78毫秒。而另一个变体:
tot = 0
for a, b in zip(df[0] / 1e5, df[1]):
tot += a < len(b)
需要2.29毫秒。