如何选择网站中除了给定类的URL之外的所有URL?

时间:2015-07-22 18:11:25

标签: python regex xpath

我想使用正则表达式从我的Twitter粉丝页面中选择所有网址。如果我使用https://twitter\.com/.*,则会在网站中选择与此模式匹配的所有网址,但我想在“要关注的人”部分中排除用户。此URL位于WhoToFollow类中。所以,我的问题是:我可以使用XPath,正则表达式或两者的组合来选择与之前模式匹配的所有URL但排除Python中WhoToFollow类中的URL吗? 谢谢!

达尼

1 个答案:

答案 0 :(得分:3)

如果我正确理解,您可以使用此类xpath,a tag不使用类WhoToFollow并使用以https://twitter.com/开头的网址。然后它需要href的内容

//a[not(@class="WhoToFollow") and starts-with(@href, "https://twitter.com/")]/@href