我想获得CNN新闻文章的所有链接

时间:2018-08-25 12:47:15

标签: python beautifulsoup python-newspaper

我想获取CNN新闻文章的所有链接

例如

在此链接

  https://edition.cnn.com/search/?q=%20news&size=10

我可以显示最新的10条新闻

获取新闻链接 我尝试了两种方法。

   html_page = urlopen(url)
   soup = BeautifulSoup(html_page, "lxml")

   cnn_paper = newspaper.build(url, memoize_articles=False)  # ~15 seconds
   n_list = []
   for article in cnn_paper.articles:
      n_list.append(article.url)

req = Request(url)
html_page = urlopen(req)

soup = BeautifulSoup(html_page, "lxml")
links = []
for link in soup.findAll('a'):
    links.append(link.get('href'))

但是我找不到新闻链接

如果您转到下一页,我只能获得相同的链接

1 个答案:

答案 0 :(得分:0)

尝试以下方法:

for link in soup.find_all('a'):
    links.append(link.get('href'))