如何刮取网页中的所有链接?我的代码只删除了一些链接

时间:2018-05-23 05:35:47

标签: python html web-scraping beautifulsoup

这是我搜索网页中所有链接的代码:

from bs4 import BeautifulSoup
import requests
import re

page = requests.get("http://www3.asiainsurancereview.com/News")
soup = BeautifulSoup(page.text, "html.parser")
for link in soup.findAll('a', attrs={'href': re.compile("^http://")}):
    print(link.get('href'))

links.close()

但它只列出了下拉菜单中的链接。这是为什么?为什么没有"看"页面中出现的新闻文章的链接?我其实想要抓取所有新闻文章。我尝试了以下方法,以识别标签并抓取该标签内的新闻文章链接:

import requests
import re

links=open("Life_and_health_links.txt", "a")
page = requests.get("http://www3.asiainsurancereview.com/News")
soup = BeautifulSoup(page.text, "html.parser")

li_box = soup.select('div.col-sm-5 > ul > li > h5 > a')
for link in li_box:
    print(link['href'])

但是,这当然只显示该特定标签中的链接。要列出其他标签中的链接,我必须多次运行此代码,指定我想列出其链接的特定标签。但是,如何列出所有标签中新闻文章的所有链接,并跳过不属于新闻文章的链接?

1 个答案:

答案 0 :(得分:1)

您需要做一些研究才能找到新闻链接的常见模式。

试试这个,希望它有效。

li_box = soup.select("div ul li h5 a")
for a in li_box:
    print(a['href'])