Question

我试图用硒的点击按钮刮擦一个网站，所以我刮擦了许多页面的表格： *几乎每个桌子的桌子样式都相同假设我们有一个列表：这是表的标题，它包含5列，我将其作为静态类型输入

header = ["a", "b", "c", "d", "e"]

和一个语料库作为列表，还有5列，如：

["abc", "edf", "dfk", "kkk""...", 
 "...", "...", "...", "...",
"...", "...", "...", "..."]

这是我的问题，有时对应于标题“ b”的列丢失了。所以当我像pd.DataFrame（line，columns = header）那样构建我的dataFrame时，有时len（line）== line（header），所以有时还可以这是我的代码不起作用时

def function(parameters) : 
    ....
    web scraping 
    ....
    try : 
        df = pd.DataFrame(table, columns = header)
        return df
    except ValueError :
        print("table and header columns shape mismatch") 
    else : 
        for line in table : # table is corpus list
            line.insert(1, "None") # i know that every missing columns is the 2nd one so i add None to add that missing columns
            # in theory shape must match so i build df
        df = pd.DataFrame(table, columns = header)
        return df

但是我仍然有错误错配的列，所以我想知道我的错误在哪里或另一种方法。我希望这很清楚。谢谢。

处理数据框的形状不匹配

0 个答案: