我正在尝试刮取冠状病毒数据并将其推到一条推文中,但我无法弄清楚如何从特定的行开始循环
来源-https://www.worldometers.info/coronavirus/#countries
(https://i.stack.imgur.com/OZpNH.png)
results = soup.find(id = 'main_table_countries_today')
content = results.find_all('td')
print(entries.text)
for entries in content:
print(entries.text.strip())
理想情况下,我应该从
中获得一个无间隔的列表但是,即使我指定了表ID,看来我还是从包装器中获取数据
图片1 =是多余的数据
图片2 =是我要从非间隔数据开始的地方
我需要基于此将国家/地区名称放入列表
我尝试运行的循环涉及在新国家的每11行开始使用基于行#的模运算符
i = 1
for entry in content:
if i%11 == 1:
countries.append(entry.text.strip())
i += 1
print(countries)
但是,以上内容将无法运行,因为由于多余的空间,美国没有从第一行开始
要么我需要使用更好的ID,要么找出如何排除顶部的多余内容
有什么建议吗?我该怎么办?有没有比依靠线号和模数更好的方法了?
仅供参考-我是Python的初学者