我从lxml开始使用XPath。
我只写一些说明,但是我注意到XPath仅适用于某些站点。
我尝试解释:
如果我测试此代码:
import requests
from lxml import html
URL = 'https://it.wikipedia.org/wiki/Pagina_principale'
page = requests.get(URL)
tree = html.fromstring(page.content)
items = tree.xpath('//div[@id="mw-navigation"]//text()')
print(items)
结果是div中所有id为“ mw-navigation”的文本。
有人知道为什么吗,如果我有另一个带有此HTML的网站(由检查员检查):
<a id="text-search-submit">
<span>Search</span>
</a>
,并带有以下代码:
import requests
from lxml import html
URL = 'https://www.sneakersnstuff.com/en/472/upcoming-releases'
page = requests.get(URL)
tree = html.fromstring(page.content)
items = tree.xpath('//a[@id="text-search-submit"]//text()')
print(items)
项目为空?