有时数据库最后会附带专有标记(即最后5行是copywrite注意事项),这些需要被忽略或者与数据集混乱。简单地使用skiprows
与nrows
组合来硬编码某些行号是不可行的,因为不同的数据库文件可能具有可变长度。有没有办法让pandas在使用各种read
函数时跳过文件的最后X行?
澄清: 根据我的经验,您在数据文件底部找到的最常见通知是
形式Name
Copyright (c) _____ All rights reserved.
Confidentiality Notice
Owner
Owner company
其中所有这些只是第一列中的文本在数据结束之后的一个或多个空行后停留(可以使用df.dropna(how='all' inplace=True)
处理空白)。
注意:python减号表示法,即skiprows=-7
不起作用,也是开放式硬编码,即skiprows=[195:]
也不起作用(因为解释器不知道文件有多长,直到它有已经读过了。)