我想获取CNN新闻文章的所有链接
例如
在此链接
https://edition.cnn.com/search/?q=%20news&size=10
我可以显示最新的10条新闻
获取新闻链接 我尝试了两种方法。
html_page = urlopen(url)
soup = BeautifulSoup(html_page, "lxml")
cnn_paper = newspaper.build(url, memoize_articles=False) # ~15 seconds
n_list = []
for article in cnn_paper.articles:
n_list.append(article.url)
和
req = Request(url)
html_page = urlopen(req)
soup = BeautifulSoup(html_page, "lxml")
links = []
for link in soup.findAll('a'):
links.append(link.get('href'))
但是我找不到新闻链接
如果您转到下一页,我只能获得相同的链接
答案 0 :(得分:0)
尝试以下方法:
for link in soup.find_all('a'):
links.append(link.get('href'))