我是Python的新手,我正在尝试编写一个脚本来解析新闻网站的主页,查找列出的第一篇文章,抓取该文章的URL,然后按照该链接解析文章本身
我目前的工作目前是查找第一个标题,打印并抓取网址,但我无法弄清楚如何打开打印的网址,然后抓取该网页。
任何人都可以提供任何帮助吗?我真的很感激!这有点煎炸了我的大脑。
非常感谢,我目前的代码如下。
from bs4 import BeautifulSoup
import requests
import sys
import html
import webbrowser
from selenium import webdriver
driver=webdriver.Chrome()
source = requests.get('http://www.examplehomepage.com').text
soup = BeautifulSoup(source, 'lxml')
# Print headline of first article on homepage
headline = soup.find('h2').text
print(headline)
# Extract URL for first article on homepage
lead_article = soup.find('h2')
for link in lead_article.find_all('a'):
try:
sys.stdout.write('http://www.examplehomepage.com')
sys.stdout.write(link['href'])
except KeyError:
pass