我正在尝试加载包含中断的数据集。我试图找到一种聪明的方法来完成这项工作。我开始使用包含的代码。
如您所见,公共FTP站点上发布的文件中的数据从第11行开始,在第23818行结束,然后在23823再次开始,到45,630结束。
import pandas as pd
import numpy as np
from io import BytesIO
from zipfile import ZipFile
from urllib.request import urlopen
url = urlopen("http://mba.tuck.dartmouth.edu/pages/faculty/ken.french/ftp/10_Portfolios_Prior_12_2_Daily_CSV.zip")
#Download Zipfile and create pandas DataFrame
zipfile = ZipFile(BytesIO(url.read()))
df = pd.read_csv(zipfile.open('10_Portfolios_Prior_12_2_Daily.CSV'), header = 0,
names = ['asof_dt','1','2','3','4','5','6','7','8','9','10'], skiprows=10).dropna()
df['asof_dt'] = pd.to_datetime(df['asof_dt'], format = "%Y%m%d")
理想情况下,我希望第一套有版本号" 1",第二套有#34; 2"等等。
非常感谢任何帮助。谢谢。