我有一个很大的txt文件(52.375 kb,ln 86213,col 420)。
name | code | school
--------|-------|--------
steven | 1234 | harvard
Michael | 98765 | MIT
我想阅读它并将其作为熊猫的数据框。
Df = statement_read(myfile.Txt)
我不想手动将txt转换为csv。我想通过python读取myfile.txt,因此可以通过熊猫进行处理。
答案 0 :(得分:1)
如果要使用pandas处理大文件,则需要使用pandas块,例如10 GB的文件,可以选择100 mb的块大小作为示例,请注意,块大小是您决定在每个块中读取的行。
import pandas as pd
for chunk in pd.read_csv('file.csv',chunksize=3):
print(chunk[['name','code']])
假设您拥有包含数十亿条记录的示例文件
name,code,school
student1,c1,sch22
student2,c2,sch22
student3,c3,sch22
student4,c4,sch22
student5,c5,sch22
student6,c6,sch23
. . .
. . .
上面的代码应按如下所示在每个补丁中提取3行
name code school
0 student1 c1 sch22
1 student2 c2 sch22
2 student3 c3 sch22
name code school
3 student4 c4 sch22
4 student5 c5 sch22
5 student6 c6 sch23
name code school
6 student7 c7 sch24
7 student8 c8 sch25
8 student9 c9 sch26