我正在使用pandas库处理项目,其中我需要读取包含以下列的excel文件:
'invoiceid', 'locationid', 'timestamp', 'customerid', 'discount', 'tax',
'total', 'subtotal', 'productid', 'quantity', 'productprice',
'productdiscount', 'invoice_products_id', 'producttax',
'invoice_payments_id', 'paymentmethod', 'paymentdetails', 'amount'
但是当我使用下面的python代码读取这个文件时:
df_full = pd.read_excel('input/invoiced_products_noinvoiceids_inproduct_v2.0.xlsx', sheet_name=0,)
df_full.head()
它会返回一些行以及6个未命名的列,其值为 NAN 。我不知道为什么这些列会显示在这里?
以下是所请求的示例文件的链接:
https://mega.nz/#!0MlXCBYJ!Oim9RF56h6hUitTwqSG1354dIKLZEgIszzPrVpfHas8
我是熊猫和机器学习领域的新手。
请帮帮我!
提前致谢!
答案 0 :(得分:2)
正如评论中所讨论的,问题似乎是last named
列后面有额外的数据。这就是您获得Unnamed
列的原因。
如果您想删除这些列,您可以忽略这些列
df_full = df_full[df_full.filter(regex='^(?!Unnamed)').columns]