Python Lxml解析URL

时间:2018-10-23 13:22:17

标签: python html lxml

我有一个工作脚本,该脚本会访问hmtl页面并返回我想要的特定xpaths内容。但是,有一个网页内嵌html链接,我想提取每个链接的url。

from lxml import html
import requests
page =requests.get('http://example_site.com')
tree = html.fromstring(page.content)

但是,当找到URL时,它只是返回结束行包机。 ([/ n])

如何附加代码以不返回文本,而是返回URL?显然,删除/ text()并将其替换为某些内容。

tree.xpath('//*[@id="mw-content-text"]/p[23]/text()'

0 个答案:

没有答案