Question

我是Python的新手，我正在尝试编写一个脚本来解析新闻网站的主页，查找列出的第一篇文章，抓取该文章的URL，然后按照该链接解析文章本身

我目前的工作目前是查找第一个标题，打印并抓取网址，但我无法弄清楚如何打开打印的网址，然后抓取该网页。

任何人都可以提供任何帮助吗？我真的很感激！这有点煎炸了我的大脑。

非常感谢，我目前的代码如下。

from bs4 import BeautifulSoup
import requests
import sys
import html
import webbrowser
from selenium import webdriver

driver=webdriver.Chrome()

source = requests.get('http://www.examplehomepage.com').text

soup = BeautifulSoup(source, 'lxml')

# Print headline of first article on homepage
headline = soup.find('h2').text
print(headline)

# Extract URL for first article on homepage
lead_article = soup.find('h2')
for link in lead_article.find_all('a'):
    try:
        sys.stdout.write('http://www.examplehomepage.com')
        sys.stdout.write(link['href'])
    except KeyError:
        pass

Python - 从一个页面抓取URL，然后单独打开/解析

0 个答案: