Question

我试图抓住包含许多汉字的this webpage，每个汉字与一个链接的图片相关联。我到目前为止尝试过这个问题，其中character代表一个汉字：

kanji_page = requests.get('http://www013.upp.so-net.ne.jp/santai/santai.htm')
tree = html.fromstring(kanji_page.content) # now contains the whole HTML page  
page_url = tree.xpath('//a[contains(text(), '+character+')]/@href')
return page_url # returns a list of image URLs

不幸的是，这给了我页面上每个字符的href网址，而不仅仅是匹配的网址。所以说，我输入火，我想返回只是的网址（/jpg/0075.jpg）。我有什么想法，我做错了什么？

Answer 1

你错过了xpath表达式中的limit：

将其更改为：

试图用lxml抓取包含日文字符的网站，但所有字符都匹配。

1 个答案: