所有重复项都没有被删除,因为它往往忽略第一行并认为它是一个标题行。
我正在尝试删除所有列的重复项。这足以实现第一行中的一对重复。在这种情况下,b变为b.1。 A列中也有数字,但这并不影响到目前为止的工作,而且比破坏工作更令人讨厌。当我们处理大量的excel电子表格时,很多文件中缺少一个副本确实会增加。
我假设通过添加标题列或删除标题行,然后数据可以全部重复而不是忽略第一行。 要解决此问题,我尝试添加标题,删除级别并删除开始行:
df = pd.DataFrame({'Heading': data})
df.to_excel(writer, sheet_name='Sheet1', startrow=2)
df.to_excel(writer, sheet_name='Sheet1', startrow=2, header=False)
raw_data = {'0': ['first_name', 'Molly', 'Tina', 'Jake', 'Amy']}
#df.columns = df.columns.droplevel(0)
#df.to_excel(writer, header=None,index=False)
#df = df.drop_duplicates(subset=[df.columns[6]])
到目前为止,我没有取得任何成功,问题仍然存在。
标准代码:
import pandas as pd
df = pd.read_excel("C:/Documents/Ha.xlsx", sheetname=0)
writer = pd.ExcelWriter('C:/Documents/Ha.xlsx')
import xlsxwriter
import pandas as pd
df.to_excel(writer, sheet_name='Sheet1', startrow=2, header=False)
df = df.drop_duplicates(subset=[df.columns[2]])
writer1 = pd.ExcelWriter('C:/Documents/Book2.xlsx')
df.to_excel(writer1,'Sheet1')
writer.save()
print(df)