Question

我正在使用pandas.read_csv从目录中读取大量文件。有些文件存在诸如更改列分隔符之类的缺陷。

这使得创建定义明确的数据框太困难了。

受影响的数据行如下：

11:25;;;;;;;;;;;;;17.67;632.52;
11:30;;;;;;;;;;;;;;;
11:35,,,,,,,,,,,,,,,
11:40,,,,,,,,,,,,,18.18,633.53

我尝试用error_bad_lines跳过这些行

这是我读取数据的方式：

df = pd.read_csv(file_path, 
                        sep=sep, 
                        skiprows=skiprows, 
                        usecols = usecols,
                        parse_dates = parse_dates,                        
                        error_bad_lines = True,
                        warn_bad_lines = True,
                        )

我的日期函数仍然收到错误，结果数据帧如下：

65                                                11:10
66                                                11:15
67                                                11:20
68                                                11:25
69                                                11:30
70    11:35,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...
71    11:40,,,,,,,,,,,,,18.18,633.53,11519,18.18,6.0...
72    11:45,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...
73    11:50,,,,,,,,,,,,,18.55,626.05,11611,18.55,6.0...
74    11:55,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...

我想实现上述65-96行的输出。上面的第70行及其后的行是错误的。

我该如何解决这个问题？

读取文件，其中分隔符通过read_csv

0 个答案: