Question

我正在尝试加载包含中断的数据集。我试图找到一种聪明的方法来完成这项工作。我开始使用包含的代码。

如您所见，公共FTP站点上发布的文件中的数据从第11行开始，在第23818行结束，然后在23823再次开始，到45,630结束。

    import pandas as pd
    import numpy as np
    from io import BytesIO
    from zipfile import ZipFile
    from urllib.request import urlopen

    url = urlopen("http://mba.tuck.dartmouth.edu/pages/faculty/ken.french/ftp/10_Portfolios_Prior_12_2_Daily_CSV.zip")
    #Download Zipfile and create pandas DataFrame
    zipfile = ZipFile(BytesIO(url.read()))
    df = pd.read_csv(zipfile.open('10_Portfolios_Prior_12_2_Daily.CSV'), header = 0, 
                        names = ['asof_dt','1','2','3','4','5','6','7','8','9','10'], skiprows=10).dropna()
    df['asof_dt'] = pd.to_datetime(df['asof_dt'], format = "%Y%m%d")

理想情况下，我希望第一套有版本号＆＃34; 1＆＃34;，第二套有＃34; 2＆＃34;等等。

非常感谢任何帮助。谢谢。

加载包含中断的数据集

0 个答案: