应用错误收集

如果我从Wikipedia上抓取了250行表，并且该表每天都需要更新，那么我该如何自动执行此操作？我还需要对其进行格式化，并删除某些行和列（前2行始终保持不变，而最后一列始终保持不变）。总体上有5列。

如何使用BeautifulSoup抓取这些数据，获取所有数据（减去我上面所说的），然后将其放入格式不同的HTML表中？我不确定是否应该使用JS或...？

如果您需要更多信息，请发表评论。我会在5-10分钟内回复。

到目前为止，我有这个：

import requests
from bs4 import BeautifulSoup

url = requests.get("https://en.wikipedia.org/wiki/xurl")
data = url.text
soup = BeautifulSoup(data,'html.parser')
table = soup.find('table',id="thetable")

如何自动格式化已抓取的整个表格？

0 个答案: