我有一个工作脚本,该脚本会访问hmtl页面并返回我想要的特定xpaths内容。但是,有一个网页内嵌html链接,我想提取每个链接的url。
from lxml import html
import requests
page =requests.get('http://example_site.com')
tree = html.fromstring(page.content)
但是,当找到URL时,它只是返回结束行包机。 ([/ n])
如何附加代码以不返回文本,而是返回URL?显然,删除/ text()并将其替换为某些内容。
tree.xpath('//*[@id="mw-content-text"]/p[23]/text()'