Question

所有重复项都没有被删除，因为它往往忽略第一行并认为它是一个标题行。

我正在尝试删除所有列的重复项。这足以实现第一行中的一对重复。在这种情况下，b变为b.1。 A列中也有数字，但这并不影响到目前为止的工作，而且比破坏工作更令人讨厌。当我们处理大量的excel电子表格时，很多文件中缺少一个副本确实会增加。

我假设通过添加标题列或删除标题行，然后数据可以全部重复而不是忽略第一行。要解决此问题，我尝试添加标题，删除级别并删除开始行：

df = pd.DataFrame({'Heading': data})
df.to_excel(writer, sheet_name='Sheet1', startrow=2)
df.to_excel(writer, sheet_name='Sheet1', startrow=2, header=False)
raw_data = {'0': ['first_name', 'Molly', 'Tina', 'Jake', 'Amy']}
#df.columns = df.columns.droplevel(0)
#df.to_excel(writer, header=None,index=False)
#df = df.drop_duplicates(subset=[df.columns[6]])

到目前为止，我没有取得任何成功，问题仍然存在。

标准代码：

import pandas as pd
df = pd.read_excel("C:/Documents/Ha.xlsx", sheetname=0)
writer = pd.ExcelWriter('C:/Documents/Ha.xlsx')
import xlsxwriter
import pandas as pd

df.to_excel(writer, sheet_name='Sheet1', startrow=2, header=False)

df = df.drop_duplicates(subset=[df.columns[2]])

writer1 = pd.ExcelWriter('C:/Documents/Book2.xlsx')
df.to_excel(writer1,'Sheet1')
writer.save()
print(df)

所有重复项都没有被删除，因为它使第1行成为免疫标题行

0 个答案: