按字符串过滤块

时间:2017-06-30 15:14:44

标签: python python-3.x pandas dataframe bigdata

我有60M加行的csv文件。我只对其中的一部分感兴趣,并希望将它们放在数据帧中。

以下是我正在使用的代码:

iter_csv = pd.read_csv('/Users/xxxx/Documents/globqa-pgurlbymrkt-Report.csv', iterator=True, chunksize=1000)
df = pd.concat([chunk[chunk['Site Market (evar13)'].str.contains("Canada", na=False)] for chunk in iter_csv]) 

在这里取消答案:pandas: filter lines on load in read_csv

我收到以下错误:

AttributeError: Can only use .str accessor with string values, which use np.object_ dtype in pandas

似乎无法弄清楚什么是错的,并会在这里获得指导。

1 个答案:

答案 0 :(得分:0)

首先尝试验证表示字符串的数据。 你期望使用.contains()的最后一个块返回是什么? 似乎数据可能会丢失,如果是这样,那么它就不会是一个字符串。