在基础中我有下一个过程。
import csv
reader = csv.reader(open('huge_file.csv', 'rb'))
for line in reader:
process_line(line)
请参阅此相关question。我想每100行发送一次生产线,以实现批量分片。
实现相关答案的问题是csv对象是不可取消的,不能使用len。
>>> import csv
>>> reader = csv.reader(open('dataimport/tests/financial_sample.csv', 'rb'))
>>> len(reader)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: object of type '_csv.reader' has no len()
>>> reader[10:]
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: '_csv.reader' object is unsubscriptable
>>> reader[10]
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: '_csv.reader' object is unsubscriptable
我该如何解决这个问题?
答案 0 :(得分:22)
只需将reader
订阅包装到list
即可。显然这会破坏真正的大文件(参见下面更新中的备选方案):
>>> reader = csv.reader(open('big.csv', 'rb'))
>>> lines = list(reader)
>>> print lines[:100]
...
进一步阅读:How do you split a list into evenly sized chunks in Python?
更新1 (列表版本):另一种可能的方法是处理每个chuck,因为它在迭代过程中到达:
#!/usr/bin/env python
import csv
reader = csv.reader(open('4956984.csv', 'rb'))
chunk, chunksize = [], 100
def process_chunk(chuck):
print len(chuck)
# do something useful ...
for i, line in enumerate(reader):
if (i % chunksize == 0 and i > 0):
process_chunk(chunk)
del chunk[:]
chunk.append(line)
# process the remainder
process_chunk(chunk)
更新2 (生成器版本):我没有对它进行基准测试,但也许您可以通过使用块生成器来提高性能:
#!/usr/bin/env python
import csv
reader = csv.reader(open('4956984.csv', 'rb'))
def gen_chunks(reader, chunksize=100):
"""
Chunk generator. Take a CSV `reader` and yield
`chunksize` sized slices.
"""
chunk = []
for i, line in enumerate(reader):
if (i % chunksize == 0 and i > 0):
yield chunk
del chunk[:]
chunk.append(line)
yield chunk
for chunk in gen_chunks(reader):
print chunk # process chunk
# test gen_chunk on some dummy sequence:
for chunk in gen_chunks(range(10), chunksize=3):
print chunk # process chunk
# => yields
# [0, 1, 2]
# [3, 4, 5]
# [6, 7, 8]
# [9]
答案 1 :(得分:1)
对于所有.csv
文件,没有良好的方法。您应该能够使用file.seek
将文件分成块,以跳过文件的一部分。然后,您必须一次扫描一个字节以找到行的结尾。您可以独立处理这两个块。像以下(未经测试的)代码应该让你开始。
file_one = open('foo.csv')
file_two = open('foo.csv')
file_two.seek(0, 2) # seek to the end of the file
sz = file_two.tell() # fetch the offset
file_two.seek(sz / 2) # seek back to the middle
chr = ''
while chr != '\n':
chr = file_two.read(1)
# file_two is now positioned at the start of a record
segment_one = csv.reader(file_one)
segment_two = csv.reader(file_two)
我不确定你怎么知道你已经完成了遍历segment_one
。如果CSV中的列是行ID,则当您遇到segment_one
中第一行的行ID时,可以停止处理segment_two
。
答案 2 :(得分:0)
我们可以使用pandas模块来处理这些大的csv文件。
df = pd.DataFrame()
temp = pd.read_csv('BIG_File.csv', iterator=True, chunksize=1000)
df = pd.concat(temp, ignore_index=True)