我从网站上删除了一些数据,但它不包含我需要的部分。该部分位于网站的下半部分,我想要删除姓名,日期,抗议地点,年龄,当前行踪,信息和新闻链接。
我首先使用“name”,但它不包含h2标签。在使用soup.prettify进行仔细检查后,我发现页面在我需要的部分上方结束了一些行。我读到由于jquery或javascript导致scrappers失败但我没有在这里看到这样的问题。
提前感谢您的帮助。
import requests
import bs4
root_url = 'http://www.savetibet.org'
index_url = root_url + '/resources/fact-sheets/self-immolations-by-tibetans/'
def get_names_age():
response = requests.get(index_url)
soup = bs4.BeautifulSoup(response.text)
print(soup.prettify())
'''
name_list = soup.find('div', {'class': 'entry'})
for name in name_list:
try:
print(name.h2.text)
except AttributeError:
continue
'''
get_names_age()