我正在使用beautifulsoup
中的requests
和python3.5
抓取网页。问题是,当我尝试解析p
中的电子邮件地址时,它给了我[email protected]
。我尝试了其他链接,但没有收获。 cf_email标记甚至不存在。我正在通过这个解析
email_addresses=[]
for email_address in detail.findAll('p'):
email_addresses.append(email_address.text)
information = {}
information['email'] = email_addresses
电子邮件位于<p>
标记中。
我在检查元素中有这个html。
<div class="email">
<p>test1@hotmail.com</p>
<p>test2@yahoo.com</p>
<p>test3@yahoo.com</p>
<div>
当我打开页面源代码时,我已经注意到了这一点。
<p><a href="/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="472323222b2630262b2b26072f28332a262e2b6924282a">[email protected]</a></p>
答案 0 :(得分:0)
该页面实际上没有包含电子邮件地址。这样做可能是为了防止垃圾邮件发送者;将会有一些javascript用实际值替换保留文本。
换句话说,该网站正试图阻止人们完全按照您的意图去做。