如何从urllib python获取网站的特定部分

时间:2018-08-16 16:20:49

标签: python urllib

所以,现在我有这个非常简单的代码,只是用来从网站https://generator.email/收集信息,这是代码

import urllib.request f = urllib.request.urlopen("https://generator.email/") print(f.read())

我只想要显示电子邮件的页面部分,但是我不知道从哪里开始。有人有什么想法吗?

当我在wing ide中运行该程序时,它给了我一个垃圾响应,这是响应之一:

不能在此处发布全文,但您可以在此链接https://docs.google.com/document/d/18gIQZY1oFLd9eCpVbwabBrVwCrvRDBHuFOJgLD5n-S0/edit?usp=sharing

中看到

1 个答案:

答案 0 :(得分:-1)

从您的问题来看,您似乎需要学习Web Scrapping的基础知识。您可以从BeautifulSoup或Scrapy开始构建爬虫。就您的问题而言,您可以使用BeautifulSoup和python请求模块轻松实现所需的电子邮件文本部分:

import requests
from bs4 import BeautifulSoup

base_url = 'https://generator.email/'
r = requests.get(base_url)
soup = BeautifulSoup(r.text, "html.parser")
data = soup.find_all('span', {"id":"email_ch_text"})
print(data[0].text)