我试图用硒的点击按钮刮擦一个网站,所以我刮擦了许多页面的表格: *几乎每个桌子的桌子样式都相同 假设我们有一个列表:这是表的标题,它包含5列,我将其作为静态类型输入
header = ["a", "b", "c", "d", "e"]
和一个语料库作为列表,还有5列,如:
["abc", "edf", "dfk", "kkk""...",
"...", "...", "...", "...",
"...", "...", "...", "..."]
这是我的问题,有时对应于标题“ b”的列丢失了。 所以当我像pd.DataFrame(line,columns = header)那样构建我的dataFrame时,有时len(line)== line(header),所以有时还可以 这是我的代码不起作用时
def function(parameters) :
....
web scraping
....
try :
df = pd.DataFrame(table, columns = header)
return df
except ValueError :
print("table and header columns shape mismatch")
else :
for line in table : # table is corpus list
line.insert(1, "None") # i know that every missing columns is the 2nd one so i add None to add that missing columns
# in theory shape must match so i build df
df = pd.DataFrame(table, columns = header)
return df
但是我仍然有错误错配的列,所以我想知道我的错误在哪里或另一种方法。 我希望这很清楚。谢谢。