Question

我正在尝试使用pandas读取块中的csv文件，但只想获取列的子集。我正在尝试使用

df = pandas.io.parsers.read_table(myData, chunksize=1000)
df = df[id_fields + [time_field] + value_fields]

但是这给了我以下错误：

TextFileReader' object has no attribute '__getitem__'

如果我删除chunksize位，则相同的代码有效：

df = pandas.io.parsers.read_table(myData)
df = df[id_fields + [time_field] + value_fields]

任何想法如何解决这个问题？

谢谢，安

Answer 1

不一定是最聪明的解决方案（例如，如果大多数块对你没用），但以下内容应该做你想要的：

it = pandas.read_table(myData, chunksize=1000)
df = pandas.concat([chunk[id_fields + [time_field] + value_fields]
                    for chunk in it])

将数据框的子集作为TextParser对象

1 个答案: