处理数据框的形状不匹配

时间:2018-09-07 18:10:41

标签: python web-scraping

我试图用硒的点击按钮刮擦一个网站,所以我刮擦了许多页面的表格: *几乎每个桌子的桌子样式都相同 假设我们有一个列表:这是表的标题,它包含5列,我将其作为静态类型输入

header = ["a", "b", "c", "d", "e"]

和一个语料库作为列表,还有5列,如:

["abc", "edf", "dfk", "kkk""...", 
 "...", "...", "...", "...",
"...", "...", "...", "..."]

这是我的问题,有时对应于标题“ b”的列丢失了。 所以当我像pd.DataFrame(line,columns = header)那样构建我的dataFrame时,有时len(line)== line(header),所以有时还可以 这是我的代码不起作用时

def function(parameters) : 
    ....
    web scraping 
    ....
    try : 
        df = pd.DataFrame(table, columns = header)
        return df
    except ValueError :
        print("table and header columns shape mismatch") 
    else : 
        for line in table : # table is corpus list
            line.insert(1, "None") # i know that every missing columns is the 2nd one so i add None to add that missing columns
            # in theory shape must match so i build df
        df = pd.DataFrame(table, columns = header)
        return df

但是我仍然有错误错配的列,所以我想知道我的错误在哪里或另一种方法。 我希望这很清楚。谢谢。

0 个答案:

没有答案