你能用pandas / python连接基于第2行的.xlsx文件夹吗?

时间:2017-09-27 22:49:49

标签: python excel python-2.7 pandas

我在使用pandas连接一个非常大的.xlsx文件夹时遇到了麻烦。问题是我们在每个文档的第一行写了一些无法删除的文本。

设置了我的文件夹路径,并且连接工作正常。问题出在第一个文件之后,它在连接其余文件时删除前2列中的ID#。因此,不仅每列的数据都不匹配,而且我也丢失了我的唯一标识符。我最好的猜测是这是由于每个文档中的第一行文本。

这是我到目前为止所拥有的。

files = [f for f in os.listdir(path) if f.endswith('.xlsx')]

iep_boy_df = pd.concat([pd.read_excel(os.path.join(path, f), sheetname='Academic Outlier List', encoding='utf-8') for f in files],
               keys=files, names=['File Name', 'Row']).reset_index()

我已经看到了一些使用Python解析文件的方法,但是你可以解析50多个excel文档来跳过第1行然后将它们传递到pandas中以连接成DF吗?总而言之,我希望在连接时排除第1行。

这里仍然是Python的中级,所以任何帮助都将非常感谢!

2 个答案:

答案 0 :(得分:0)

我不确定这是否会完全解决您的导入问题,但是Pandas <form #myForm=“ngForm"> . . <input type="hidden" id="isValid" name="isValid" [(ngModel)]="isValid" value="myForm.valid"/> . . </form> 有一个read_excel()参数,您可以通过该参数跳过第一行。请注意,其类型是零索引列表。

参考:http://pandas.pydata.org/pandas-docs/version/0.20/generated/pandas.read_excel.html

答案 1 :(得分:0)

我会回应piRSQUARED的回答。 pd.read_excel有跳过但记得将跳过的行作为可迭代传递。