我有一个包含11,000行和10列的电子表格。我试图用选定的列复制每一行,每行添加额外的信息并输出到txt。
不幸的是,我遇到了非常糟糕的性能问题,文件在100行后开始出现问题并终止我的处理器。有没有办法加快速度或使用更好的方法?我已在使用read_only=True
和data_only=True
大多数内存密集型部分正在迭代每个单元格:
for i in range(probeStart, lastRow+1):
dataRow =""
for j in range (1,col+2):
dataRow = dataRow + str(sheet.cell(row=i, column=j).value) + "\t"
sigP = db.get(str(sheet.cell(row= i, column=1).value), "notfound") #my additional information
a = str(sheet.cell(row = i, column = max_column-1).value) +"\t"
b = str(sheet.cell(row = i, column = max_column).value) + "\t"
string1 = dataRow + a + b + sigP + "\n"
w.write(string1)
答案 0 :(得分:1)
问题:有没有办法加快速度或使用更好的方法?
尝试以下操作,看看这是否可以提高效果:
注意:我们不知道
col
和max_column
的值! 我的示例使用了4列并跳过了C列。数据强>:
[' A1',' B1',' C1',' D1'],
[' A2',' B2',' C2',' D2']
from openpyxl.utils import range_boundaries
min_col, min_row, max_col, max_row = range_boundaries('A1:D2')
for row_cells in ws.iter_rows(min_col=min_col, min_row=min_row,
max_col=max_col, max_row=max_row):
# Slice Column Values up to B
data = [cell.value for cell in row_cells[:2]]
# Extend List with sliced Column Values from D up to End
data.extend([cell.value for cell in row_cells[3:]])
# Append db.get(Column A.value)
data.append(db.get(row_cells[0].value, "notfound"))
# Join all List Values delimited with \t
print('{}'.format('\t'.join(data)))
# Write to CSV
#w.write(data)
<强>输出强>:
A1 B1 D1未发现
A2 B2 D2未发现
使用Python测试:3.4.2 - openpyxl:2.4.1