这是我想要抓取的网站的HTML代码:
<div id="quranOutput">
<a class="key" name="1:1"></a>
<div class="verse ayahBox1" id="verse_1">
这是在动态django scraper中使用的xpath,但它不起作用:
//div[@class="ayah language_6 text"]/a/@name
有人可以帮我找出检索名称的正确方法,即(name =“1:1”)。
答案 0 :(得分:1)
使用xpath:
//div[@id="quranOutput"]/a[@class="key"]/@name
>>> import lxml.html
>>>
>>> root = lxml.html.fromstring('''
... <html>
... <body>
... <div id="quranOutput">
... <a class="key" name="1:1"></a>
... <div class="verse ayahBox1" id="verse_1"></div>
... </div>
... </body>
... </html>''')
>>>
>>> print root.xpath('//div[@id="quranOutput"]/a[@class="key"]/@name')
['1:1']