我有一个csv文件,该文件的末尾包含一些额外的行(最后9行),这些行很重要,但根本不适合该架构,因此需要进行不同的处理。它们仅包含不同网站的点击次数。我想从原始csv中拆分出最后几行,并将其保存为其他文件。
到目前为止,我可以跳过大页脚,而使用熊猫获得最重要的行。如果行数是一致的,那么我可以使用skiprows = 0-2000(例如)来保存页脚,但这些行将更改。
保存所有主要行的代码如下:
reader = pd.read_csv(os.path.join(DATA_DIR, file), encoding='utf8', header=0, skipfooter=9, index_col=0)
trimmed_file_name = 'trimmed_{}'.format(file)
path = os.path.join(DATA_DIR)
full_path = path + "\ ".strip(' ') + trimmed_file_name
# had to use this odd way of creating a path because it kept trying to use \ as an escape char, just ignore
print(full_path)
reader.to_csv(full_path, mode='a')
那么,如何在没有“ skiprows”的情况下取出最后9行呢?有任何想法吗?如果有帮助,页脚始终是最后9行。
答案 0 :(得分:0)
读完第一个数据框后,我们知道有多少规则行。因此,只需阅读其余内容
footer = pd.read_csv(file, skiprows=len(reader))