使用熊猫按块读取csv文件时出现索引错误

时间:2020-06-17 03:54:16

标签: python pandas bigdata large-data chunks

我是Python的新用户。我试图按块打开一个巨大的csv文件(13gb),过滤数据,然后加入干净的数据。

我尝试了以下代码:

iter_data = pd.read_csv('OFER_CPA_OPCOES_20191101.txt',sep=";" ,header=0,iterator=True,
        names=["SessionDate","InstrumentSymbol","OrderSide",
               "SequentialOrderNumber","SecondaryOrderID","ExecutionType",
               "PriorityTime","PriorityIndicator","OrderPrice",
               "TotalQuantity","TradedQuantity","OrderDate",
               "PriorityDateTime","OrderStatus",
               "AggressorIndicator", "Member"], chunksize=500000)
     
chunk_list=[]
for chunk in iter_data:  
     
    chunk_filter = chunk[chunk.dropna().InstrumentSymbol.str.contains("BBDC")]     
    chunk_list.append(chunk_filter)

final_data = pd.concat(chunk_list)

问题在于循环生成以下错误

“无法对齐的布尔系列,以”

形式提供

IndexingError:作为索引器提供了不可对齐的布尔系列(布尔系列和被索引对象的索引不匹配)

我不知道为什么会这样。如果你们中的任何人知道什么在我的代码中产生了错误,那将是一个很大的帮助。

Ps。如果有点令人困惑,这是我第一次在这里写对不起。

0 个答案:

没有答案