我已经分析了按tottime
对统计数据进行排序的代码。大部分时间都在这里:
\xlrd\xlsx.py:620(do_row)
{method 'feed' of 'xml.etree.ElementTree.XMLParser' objects}
xlrd\xlsx.py:540(own_process_stream)
{method 'read' of '_ssl._SSLSocket' bjects}
xml\etree\ElementTree.py:1286(read_events)
xlrd\sheet.py:691(put_cell_unragged)
pandas\io\excel.py:491(_parse_excel)
我正在尝试优化我创建的bls-datasets库。它下载excel文件并将其转换为数据框。有些文件非常大(> 50mb),需要一些时间才能下载。重申一下,下载成功,对于较大的文件仅花费大量时间。
我很好奇,是否还有其他选项可以提高此下载速度,或者是否超出了我的控制范围。
当前,我正在使用requests.get()
来获取ziparchive,将其转换为zipfile对象,然后打开zipfile的指定文件。