我有一个看起来像这样(缩短)的HTML代码;
<div id="activities" class="ListItems">
<h2>Standards</h2>
<ul>
<li>
<a class="Title" href="http://www.google.com" >Guidelines on management</a>
<div class="Info">
<p>
text
</p>
<p class="Date">Status: Under development</p>
</div>
</li>
</ul>
</div>
<div class="DocList">
<h3>Reports</h3>
<p class="SupLink">+ <a href="http://www.google.com/test" >View More</a></p>
<ul>
<li class="pdf">
<a class="Title" href="document.pdf" target="_blank" >Document</a>
<span class="Size">
[1,542.3KB]
</span>
<div class="Info">
<p>
text <a href="http://www.google.com" >Read more</a>
</p>
<p class="Date">
14/03/2018
</p>
</div>
</li>
</ul>
</div>
我试图通过使用此代码在'a class =“Title”'下选择'href ='中的值:
def sub_path02(url):
page = requests.get(url)
tree = html.fromstring(page.content)
url2 = []
for node in tree.xpath('//a[@class="Title"]'):
url2.append(node.get("href"))
return url2
但是我得到了两个返回,'div class =“DocList”'下的那个返回。
我正在尝试更改我的xpath表达式,以便我只能在节点内查看,但我无法让它工作。
有人可以帮助我了解如何在特定节点内“搜索”。我已经完成了多个xpath文档,但我似乎无法弄明白。
答案 0 :(得分:0)
尝试使用此xpath表达式以递归方式选择具有特定id
的div:
'//div[@id="activities"]//a[@class="Title"]'
所以:
def sub_path02(url):
page = requests.get(url)
tree = html.fromstring(page.content)
url2 = []
for node in tree.xpath('//div[@id="activities"]//a[@class="Title"]'):
url2.append(node.get("href"))
return url2
选择 id 而不是类更好,因为 id 应该是唯一的(在现实生活中,有时会出现错误的代码同一页面中有多个相同的 id ,但类可重复N次)
答案 1 :(得分:0)
使用//
您已经在选择文档中的所有a
元素。
要搜索特定的div
尝试使用//指定父级,然后再使用// a来查看div中的任何位置
//div[@class="ListItems"]//a[@class="Title"]
for node in tree.xpath('//div[@class="ListItems"]//a[@class="Title"]'):url2.append(node.get("href"))