我试图抓住包含许多汉字的this webpage,每个汉字与一个链接的图片相关联。我到目前为止尝试过这个问题,其中character
代表一个汉字:
kanji_page = requests.get('http://www013.upp.so-net.ne.jp/santai/santai.htm')
tree = html.fromstring(kanji_page.content) # now contains the whole HTML page
page_url = tree.xpath('//a[contains(text(), '+character+')]/@href')
return page_url # returns a list of image URLs
不幸的是,这给了我页面上每个字符的href网址,而不仅仅是匹配的网址。所以说,我输入火,我想返回只是的网址(/jpg/0075.jpg
)。我有什么想法,我做错了什么?
答案 0 :(得分:0)
你错过了xpath表达式中的limit
:
将其更改为:
"