Python - 从一个页面抓取URL,然后单独打开/解析

时间:2018-02-04 20:41:49

标签: python parsing screen-scraping

我是Python的新手,我正在尝试编写一个脚本来解析新闻网站的主页,查找列出的第一篇文章,抓取该文章的URL,然后按照该链接解析文章本身

我目前的工作目前是查找第一个标题,打印并抓取网址,但我无法弄清楚如何打开打印的网址,然后抓取该网页。

任何人都可以提供任何帮助吗?我真的很感激!这有点煎炸了我的大脑。

非常感谢,我目前的代码如下。

from bs4 import BeautifulSoup
import requests
import sys
import html
import webbrowser
from selenium import webdriver

driver=webdriver.Chrome()

source = requests.get('http://www.examplehomepage.com').text

soup = BeautifulSoup(source, 'lxml')

# Print headline of first article on homepage
headline = soup.find('h2').text
print(headline)

# Extract URL for first article on homepage
lead_article = soup.find('h2')
for link in lead_article.find_all('a'):
    try:
        sys.stdout.write('http://www.examplehomepage.com')
        sys.stdout.write(link['href'])
    except KeyError:
        pass

0 个答案:

没有答案