我正在抓取网站,并且能够下拉电子邮件href属性,但所有电子邮件都包含mailto:标记。例如,我喜欢电子邮件mailto:john@gmail.com只是john@gmail.com。我已经搜索了堆栈并找到了几个正则表达式解决方案,但我无法实现它们。在Python 3.6中,导入重新保持灰色。现在看来它必须是默认库,但它不起作用。我也试过改变XPATH,但我不知道如何渲染XPATH,因为Selenium并不允许你这样做。
这是我的代码:
<button class="next" @click="increment"> > </button>
答案 0 :(得分:2)
您可以尝试使用方法.replace():
email.replace("mailto:", "")
如果您有已删除电子邮件的列表,则可以在循环中使用.replace()
:
email_list = ['mailto:john@gmail.com','mailto:john2@gmail.com','mailto:john3@gmail.com']
for item in email_list:
item = item.replace("mailto:", "")
print(item)
输出:
john@gmail.com
john2@gmail.com
john3@gmail.com