如果我从Wikipedia上抓取了250行表,并且该表每天都需要更新,那么我该如何自动执行此操作?我还需要对其进行格式化,并删除某些行和列(前2行始终保持不变,而最后一列始终保持不变)。总体上有5列。
如何使用BeautifulSoup抓取这些数据,获取所有数据(减去我上面所说的),然后将其放入格式不同的HTML表中?我不确定是否应该使用JS或...?
如果您需要更多信息,请发表评论。我会在5-10分钟内回复。
到目前为止,我有这个:
import requests
from bs4 import BeautifulSoup
url = requests.get("https://en.wikipedia.org/wiki/xurl")
data = url.text
soup = BeautifulSoup(data,'html.parser')
table = soup.find('table',id="thetable")