如何自动格式化已抓取的整个表格?

时间:2020-05-02 12:58:06

标签: javascript python html css web-scraping

如果我从Wikipedia上抓取了250行表,并且该表每天都需要更新,那么我该如何自动执行此操作?我还需要对其进行格式化,并删除某些行和列(前2行始终保持不变,而最后一列始终保持不变)。总体上有5列。

如何使用BeautifulSoup抓取这些数据,获取所有数据(减去我上面所说的),然后将其放入格式不同的HTML表中?我不确定是否应该使用JS或...?

如果您需要更多信息,请发表评论。我会在5-10分钟内回复。

到目前为止,我有这个:

import requests
from bs4 import BeautifulSoup

url = requests.get("https://en.wikipedia.org/wiki/xurl")
data = url.text
soup = BeautifulSoup(data,'html.parser')
table = soup.find('table',id="thetable")

0 个答案:

没有答案