1)我应该如何从网站上tar.gz文件中的所有csv文件中读取数据,并以最大内存和空间效率的方式将它们写入文件夹中的CSV? 2)如何循环它以遍历tar.gz文件中的所有CSV? 3)由于CSV文件很大,我怎样才能将它循环读写,比如一次100万行呢?
我到目前为止只使用其他stackoverflow答案的代码!
import pandas as pd
import urllib2
import tarfile
url='https://ghtstorage.blob.core.windows.net/downloads/mysql-2016-08-01.tar.gz'
r=urllib2.Request(url)
o=urllib2.urlopen(r)
thetarfile=tarfile.open(o, mode='r:gz')
thetarfile.close()
答案 0 :(得分:-1)