我有60M加行的csv文件。我只对其中的一部分感兴趣,并希望将它们放在数据帧中。
以下是我正在使用的代码:
iter_csv = pd.read_csv('/Users/xxxx/Documents/globqa-pgurlbymrkt-Report.csv', iterator=True, chunksize=1000)
df = pd.concat([chunk[chunk['Site Market (evar13)'].str.contains("Canada", na=False)] for chunk in iter_csv])
在这里取消答案:pandas: filter lines on load in read_csv
我收到以下错误:
AttributeError: Can only use .str accessor with string values, which use np.object_ dtype in pandas
似乎无法弄清楚什么是错的,并会在这里获得指导。
答案 0 :(得分:0)
首先尝试验证表示字符串的数据。 你期望使用.contains()的最后一个块返回是什么? 似乎数据可能会丢失,如果是这样,那么它就不会是一个字符串。