删除' mailto:'来自selenium get_attribute(' href')

时间:2018-05-19 20:49:15

标签: python selenium parsing mailto

我正在抓取网站,并且能够下拉电子邮件href属性,但所有电子邮件都包含mailto:标记。例如,我喜欢电子邮件mailto:john@gmail.com只是john@gmail.com。我已经搜索了堆栈并找到了几个正则表达式解决方案,但我无法实现它们。在Python 3.6中,导入重新保持灰色。现在看来它必须是默认库,但它不起作用。我也试过改变XPATH,但我不知道如何渲染XPATH,因为Selenium并不允许你这样做。

这是我的代码:

<button class="next" @click="increment"> > </button>

1 个答案:

答案 0 :(得分:2)

您可以尝试使用方法.replace()

email.replace("mailto:", "")

如果您有已删除电子邮件的列表,则可以在循环中使用.replace()

email_list = ['mailto:john@gmail.com','mailto:john2@gmail.com','mailto:john3@gmail.com']
for item in email_list:
    item = item.replace("mailto:", "")
    print(item)

输出:

john@gmail.com
john2@gmail.com
john3@gmail.com