试图用lxml抓取包含日文字符的网站,但所有字符都匹配。

时间:2017-02-14 00:32:18

标签: python-3.x xpath unicode web-scraping lxml

我试图抓住包含许多汉字的this webpage,每个汉字与一个链接的图片相关联。我到目前为止尝试过这个问题,其中character代表一个汉字:

kanji_page = requests.get('http://www013.upp.so-net.ne.jp/santai/santai.htm')
tree = html.fromstring(kanji_page.content) # now contains the whole HTML page  
page_url = tree.xpath('//a[contains(text(), '+character+')]/@href')
return page_url # returns a list of image URLs

不幸的是,这给了我页面上每个字符的href网址,而不仅仅是匹配的网址。所以说,我输入火,我想返回只是的网址(/jpg/0075.jpg)。我有什么想法,我做错了什么?

1 个答案:

答案 0 :(得分:0)

你错过了xpath表达式中的limit

将其更改为:

"