Question

我正在使用beautifulsoup中的requests和python3.5抓取网页。问题是，当我尝试解析p中的电子邮件地址时，它给了我[email protected]。我尝试了其他链接，但没有收获。 cf_email标记甚至不存在。我正在通过这个解析

email_addresses=[]
for email_address in detail.findAll('p'):
   email_addresses.append(email_address.text)
   information = {}
   information['email'] = email_addresses

电子邮件位于<p>标记中。

我在检查元素中有这个html。

<div class="email">
   <p>test1@hotmail.com</p>
   <p>test2@yahoo.com</p>
   <p>test3@yahoo.com</p>
<div>

当我打开页面源代码时，我已经注意到了这一点。

<p><a href="/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="472323222b2630262b2b26072f28332a262e2b6924282a">[email&#160;protected]</a></p>

Answer 1

该页面实际上没有包含电子邮件地址。这样做可能是为了防止垃圾邮件发送者；将会有一些javascript用实际值替换保留文本。

换句话说，该网站正试图阻止人们完全按照您的意图去做。

电子邮件地址未在beautifulsoup中解析

1 个答案: