我从我们的合作伙伴那里收到了一个文件扩展名没有文件类型的文件。我希望使用csv,但是他们发送的似乎是带有二进制编码的Windows Excel 2007+ MIME类型。
$ file -I my_file
my_file: application/vnd.openxmlformats-officedocument.spreadsheetml.sheet; charset=binary
我想使用Pyspark(或熊猫,python等)将此文件读入数据框。
我尝试仅使用pandas和xlrd进行阅读:
df = pd.read_excel(path + 'file_name')
我得到BadZipFile: Bad magic number for file header
FWW,我还尝试在本地计算机(运行Mac OS X 16.28的Excel的Mac OS 10.14.6)上添加xlsx文件扩展名,并在Excel中打开,然后收到警告:“我们发现某些内容存在问题您是否要我们尝试尽可能地恢复?如果您信任此工作簿的来源,请单击“是”。当我单击“是”时,它说“ Excel无法打开文件'file_name.xlsx',因为文件格式或文件扩展名无效。请验证文件未损坏且文件扩展名与文件格式匹配。”
我的猜测是文件已损坏,我需要让合作伙伴重新共享它,但我想确认我没有办法读取此文件,因为重新共享过程将花费太多时间