Question

我尝试使用urllib和xlrd下载和操作xls文件。

数据来自网址http://profiles.doe.mass.edu/search/search_export.aspx?orgCode=&orgType=5,12&runOrgSearch=Y&searchType=ORG&leftNavId=11238&showEmail=N

我在Mac上使用Python 2.7，xlrd 0.9.4，urllib 1.17和我。

我可以使用此代码成功下载文件。

saveLocation = home_dir+"/test/"
fileName = "data.xls"
page = <the url given above>
urllib.urlretrieve(page, saveLocation+fileName)

然后我尝试使用xlrd

打开文件

wb = xlrd.open_workbook(saveLocation+fileName)

但是得到错误

XLRDError: Unsupported format, or corrupt file: Expected BOF record; found '\r\n\r\n<htm'

这告诉我该文件没有作为真正的xls文件下载。我可以在Excel中打开该文件，并且不会出现弹出警告或兼容性错误。奇怪的是，如果我然后将文件（在Excel中）保存为Excel 97-2004，则xlrd错误消失。所以它似乎是Excel＆＃34;修复＆＃34;这个文件出了什么问题。

所以我的问题是，我如何修复＆＃34; python中的文件或以xlrd将识别的适当格式下载数据？

我还尝试将该文件作为xlsx文件下载并使用openpyxl但是也出现了类似的错误。 openpyxl说它不是一个有效的zip文件。我还尝试使用不同的方法下载数据，例如请求。

感谢。

编辑：使用@DSM提供的信息，我可以下载并使用Excel文件。这是我使用的代码。

dfs = pd.read_html(fileLocation+fileName, index_col = 7, header=0)[0]
writer = pd.ExcelWriter(fileLocation+fileName)
dfs.to_excel(writer,"Sheet1")
writer.save()

然后我可以将文件作为真正的Excel文件访问

ws = pd.read_excel(fileLocation+fileName, 0)

Answer 1

由于<htm位应该提示，这实际上是以xml方式呈现的数据，尽管名称为.xls。（几乎总是值得手动查看您最喜欢的编辑器中的数据标题，以检查当事实证明难以阅读时实际上是什么。）有时这可能是一个真正令人讨厌的事情，但幸运的是我们可以在这里只需使用read_html：

即可阅读

>>> url="http://profiles.doe.mass.edu/search/search_export.aspx?orgCode=&orgType=5,12&runOrgSearch=Y&searchType=ORG&leftNavId=11238&showEmail=N"
>>> dfs = pd.read_html(url)
>>> len(dfs)
1
>>> dfs[0].iloc[:5,:5]
                                                   0         1  \
0                                           Org Name  Org Code   
1       Abby Kelley Foster Charter Public (District)  04450000   
2                                           Abington  00010000   
3  Academy Of the Pacific Rim Charter Public (Dis...  04120000   
4                                     Acton (non-op)  00020000   

                        2                      3              4  
0                Org Type               Function   Contact Name  
1        Charter District  Charter School Leader     Brian Haas  
2  Public School District         Superintendent  Peter Schafer  
3        Charter District  Charter School Leader  Chris Collins  
4  Public School District         Superintendent    Glenn Brand

仔细观察，我们发现我们可以使用标题的第0行，所以：

>>> df = pd.read_html(url, header=0)[0]
>>> df.iloc[:5, :5]
                                            Org Name  Org Code  \
0       Abby Kelley Foster Charter Public (District)   4450000   
1                                           Abington     10000   
2  Academy Of the Pacific Rim Charter Public (Dis...   4120000   
3                                     Acton (non-op)     20000   
4                                   Acton-Boxborough   6000000   

                 Org Type               Function   Contact Name  
0        Charter District  Charter School Leader     Brian Haas  
1  Public School District         Superintendent  Peter Schafer  
2        Charter District  Charter School Leader  Chris Collins  
3  Public School District         Superintendent    Glenn Brand  
4  Public School District         Superintendent    Glenn Brand

在python中下载和使用xls文件时出现问题

1 个答案: