我正在写蜘蛛,我想知道哪个链接意味着“下一页”,所以我需要通过value =“next page”获取元素,然后获取链接。 它不仅包含一个标签,它是一个完整的html源代码,而且我想获得特定的链接。
如果我想获得像
这样的元素`<a href="http://*****">..</a>`
我可以用
`'a[href^="http"]'`
我试试
`'a[text="value"]'`
答案 0 :(得分:1)
尝试&#39;包含&#39;:
from pyquery import PyQuery as pq
doc = pq("<html><body><a href='https://stackoverflow.com'>Next page</a><p>...Next time...</p></body></html>")
el = doc('a:Contains("Next")')
el.text() # 'Next page'
el.attr['href'] # 'https://stackoverflow.com'