Python pandas为excel文件显示额外的未命名列

时间:2018-04-04 07:26:53

标签: python pandas machine-learning pandas-datareader

我正在使用pandas库处理项目,其中我需要读取包含以下列的excel文件:

'invoiceid', 'locationid', 'timestamp', 'customerid', 'discount', 'tax',
   'total', 'subtotal', 'productid', 'quantity', 'productprice',
   'productdiscount', 'invoice_products_id', 'producttax',
   'invoice_payments_id', 'paymentmethod', 'paymentdetails', 'amount'

但是当我使用下面的python代码读取这个文件时:

df_full = pd.read_excel('input/invoiced_products_noinvoiceids_inproduct_v2.0.xlsx', sheet_name=0,)
df_full.head()

它会返回一些行以及6个未命名的列,其值为 NAN 。我不知道为什么这些列会显示在这里?

  

以下是所请求的示例文件的链接:

https://mega.nz/#!0MlXCBYJ!Oim9RF56h6hUitTwqSG1354dIKLZEgIszzPrVpfHas8

我是熊猫和机器学习领域的新手。

请帮帮我!

提前致谢!

1 个答案:

答案 0 :(得分:2)

正如评论中所讨论的,问题似乎是last named列后面有额外的数据。这就是您获得Unnamed列的原因。

如果您想删除这些列,您可以忽略这些列

df_full = df_full[df_full.filter(regex='^(?!Unnamed)').columns]