所有重复项都没有被删除,因为它使第1行成为免疫标题行

时间:2017-11-09 01:56:25

标签: python excel python-3.x pandas

所有重复项都没有被删除,因为它往往忽略第一行并认为它是一个标题行。

https://ibb.co/b4GvJG

我正在尝试删除所有列的重复项。这足以实现第一行中的一对重复。在这种情况下,b变为b.1。 A列中也有数字,但这并不影响到目前为止的工作,而且比破坏工作更令人讨厌。当我们处理大量的excel电子表格时,很多文件中缺少一个副本确实会增加。

我假设通过添加标题列或删除标题行,然后数据可以全部重复而不是忽略第一行。 要解决此问题,我尝试添加标题,删除级别并删除开始行:

df = pd.DataFrame({'Heading': data})
df.to_excel(writer, sheet_name='Sheet1', startrow=2)
df.to_excel(writer, sheet_name='Sheet1', startrow=2, header=False)
raw_data = {'0': ['first_name', 'Molly', 'Tina', 'Jake', 'Amy']}
#df.columns = df.columns.droplevel(0)
#df.to_excel(writer, header=None,index=False)
#df = df.drop_duplicates(subset=[df.columns[6]])

到目前为止,我没有取得任何成功,问题仍然存在。

标准代码:

import pandas as pd
df = pd.read_excel("C:/Documents/Ha.xlsx", sheetname=0)
writer = pd.ExcelWriter('C:/Documents/Ha.xlsx')
import xlsxwriter
import pandas as pd

df.to_excel(writer, sheet_name='Sheet1', startrow=2, header=False)

df = df.drop_duplicates(subset=[df.columns[2]])

writer1 = pd.ExcelWriter('C:/Documents/Book2.xlsx')
df.to_excel(writer1,'Sheet1')
writer.save()
print(df)

0 个答案:

没有答案