我正在使用pandas.read_csv
从目录中读取大量文件。
有些文件存在诸如更改列分隔符之类的缺陷。
这使得创建定义明确的数据框太困难了。
受影响的数据行如下:
11:25;;;;;;;;;;;;;17.67;632.52;
11:30;;;;;;;;;;;;;;;
11:35,,,,,,,,,,,,,,,
11:40,,,,,,,,,,,,,18.18,633.53
我尝试用error_bad_lines
跳过这些行
这是我读取数据的方式:
df = pd.read_csv(file_path,
sep=sep,
skiprows=skiprows,
usecols = usecols,
parse_dates = parse_dates,
error_bad_lines = True,
warn_bad_lines = True,
)
我的日期函数仍然收到错误,结果数据帧如下:
65 11:10
66 11:15
67 11:20
68 11:25
69 11:30
70 11:35,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...
71 11:40,,,,,,,,,,,,,18.18,633.53,11519,18.18,6.0...
72 11:45,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...
73 11:50,,,,,,,,,,,,,18.55,626.05,11611,18.55,6.0...
74 11:55,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...
我想实现上述65-96行的输出。 上面的第70行及其后的行是错误的。
我该如何解决这个问题?