Question

我有60M加行的csv文件。我只对其中的一部分感兴趣，并希望将它们放在数据帧中。

以下是我正在使用的代码：

iter_csv = pd.read_csv('/Users/xxxx/Documents/globqa-pgurlbymrkt-Report.csv', iterator=True, chunksize=1000)
df = pd.concat([chunk[chunk['Site Market (evar13)'].str.contains("Canada", na=False)] for chunk in iter_csv])

在这里取消答案：pandas: filter lines on load in read_csv

我收到以下错误：

AttributeError: Can only use .str accessor with string values, which use np.object_ dtype in pandas

似乎无法弄清楚什么是错的，并会在这里获得指导。

Answer 1

首先尝试验证表示字符串的数据。你期望使用.contains（）的最后一个块返回是什么？似乎数据可能会丢失，如果是这样，那么它就不会是一个字符串。

按字符串过滤块

1 个答案: