此代码按表结构下载数据,我尝试将该表放入列表中,以便我可以进一步使用它存储在数据库中,我试图在此为头添加另一个空行,因为它将第一个实体作为它的标题。 问题是它在极左侧给出了方括号,甚至没有替换默认标题,我也不知道如何将此表放在列表中以进一步添加到数据库中。
代码:
import urllib
import re
from bs4 import BeautifulSoup as bs
import pandas as pd
urls = ["http://physics.iitd.ac.in/content/list-faculty-members"]
i = 0
while i< len(urls):
htmlfile = urllib.urlopen(urls[i])
htmltext = htmlfile.read()
soup = bs(htmltext, "lxml")
tables = pd.read_html(urls[i])
dataframe = tables[0]
x = [[]]
for dataframes in tables:
x.append(dataframe)
print x
i+=1