我目前正在开发一个项目,我想对如何优化我的python脚本有一些想法。我不能真正给你明确的代码,因为我现在还没有它,但我对你可能有的任何建议感兴趣。
所以想法是读取.txt文件的行(大约80,000,000行)。我的函数的目的是返回一个矩阵,其中包含每行信息的总和。 基本上,.txt文件的每一行都包含由第一个单元格的位置(行,列)指示的矩阵的8个相邻单元格的垂直组。
例如,我的.txt文件的第一行是: 80 240 11011011 这意味着从第80行和第240列开始的8个单元格将增加指示值(第一个为1,第二个为1,第三个为0,......)
因此我的代码的主要模式如下:
resultMatrix = np.zeros((length,width))
for line in myTxtFile:
tempList = line.split(" ")
row = tempList[0]
column = tempList[1]
value = ...# We convert the "11011011" into an np.array of size 8
matrixResult[:,column][row:row+8] += value
return resultMatrix
此功能实际上需要10分钟才能获得60,000,000行。而且我必须多次这样做你知道我如何优化它吗?
非常感谢你的帮助!