难以导入CSV

时间:2017-07-13 16:53:54

标签: python pandas

我的.csv文件包含以下格式的行

1234, "Hello, Im text. "Thats a silly way to do it" is what the guy said.", 5678

某些条目的内容包含双引号和逗号。然而,他们永远不会彼此相邻。一些文本条目长达524,288个字符

pandas.read_csv('file.csv', dtype={'a': np.uint16, 'b': 'S524288', \
'c', np.uint16}, delimiter=',', quotechar='"', engine='python')

给了我一个错误。

ParserError: field is larger than field limit (131072)

有什么想法吗?

1 个答案:

答案 0 :(得分:0)

单方注意:

在Python中,无论"在哪里,将它们放在字符串中都很麻烦。

设置

x = "He said "hi there!" to me"

这将返回错误,因为它会解析字符串"He said ",然后使用hi there!错误。这是您可能遇到的问题,具体取决于您解析csv文件的方式。

这会返回与您收到的错误不同的错误,因此可能不会立即产生问题,但如果您在问题中上传的行实际上包含"Hello, Im text. "Thats a silly way to do it" is what the guy said.",则可能会遇到问题。

回到手头的问题:

要解决您收到的错误,您可以尝试运行:

import sys
import csv

csv.field_size_limit(sys.maxsize)

这会增加read_csv()接受的字段的大小。

希望它有所帮助!

Source