Question

我是Python的新用户。我试图按块打开一个巨大的csv文件（13gb），过滤数据，然后加入干净的数据。

我尝试了以下代码：

iter_data = pd.read_csv('OFER_CPA_OPCOES_20191101.txt',sep=";" ,header=0,iterator=True,
        names=["SessionDate","InstrumentSymbol","OrderSide",
               "SequentialOrderNumber","SecondaryOrderID","ExecutionType",
               "PriorityTime","PriorityIndicator","OrderPrice",
               "TotalQuantity","TradedQuantity","OrderDate",
               "PriorityDateTime","OrderStatus",
               "AggressorIndicator", "Member"], chunksize=500000)
     
chunk_list=[]
for chunk in iter_data:  
     
    chunk_filter = chunk[chunk.dropna().InstrumentSymbol.str.contains("BBDC")]     
    chunk_list.append(chunk_filter)

final_data = pd.concat(chunk_list)

问题在于循环生成以下错误

“无法对齐的布尔系列，以”
形式提供
IndexingError：作为索引器提供了不可对齐的布尔系列（布尔系列和被索引对象的索引不匹配）。

我不知道为什么会这样。如果你们中的任何人知道什么在我的代码中产生了错误，那将是一个很大的帮助。

Ps。如果有点令人困惑，这是我第一次在这里写对不起。

使用熊猫按块读取csv文件时出现索引错误

0 个答案: