Question

所以，现在我有这个非常简单的代码，只是用来从网站https://generator.email/收集信息，这是代码

import urllib.request f = urllib.request.urlopen("https://generator.email/") print(f.read())

我只想要显示电子邮件的页面部分，但是我不知道从哪里开始。有人有什么想法吗？

当我在wing ide中运行该程序时，它给了我一个垃圾响应，这是响应之一：

不能在此处发布全文，但您可以在此链接https://docs.google.com/document/d/18gIQZY1oFLd9eCpVbwabBrVwCrvRDBHuFOJgLD5n-S0/edit?usp=sharing

中看到

Answer 1

从您的问题来看，您似乎需要学习Web Scrapping的基础知识。您可以从BeautifulSoup或Scrapy开始构建爬虫。就您的问题而言，您可以使用BeautifulSoup和python请求模块轻松实现所需的电子邮件文本部分：

import requests
from bs4 import BeautifulSoup

base_url = 'https://generator.email/'
r = requests.get(base_url)
soup = BeautifulSoup(r.text, "html.parser")
data = soup.find_all('span', {"id":"email_ch_text"})
print(data[0].text)

如何从urllib python获取网站的特定部分

1 个答案: