制定xpath查询?

时间:2011-03-29 16:35:03

标签: python web-crawler scrapy

嘿 我有一个html页面,其中包含例如以下标记:

<p foruri="http://doc.scrapy.org/getting-help:solving-specific-problems" rec="lang.en" id="solving-specific-problems">Hello world!!! From my authoring tool.</p>

<p foruri="http://doc.scrapy.org/getting-help:getting help" rec="lang.en" id="getting help">Hello world!!! From my authoring tool.</p>

现在我在python中使用scrapy框架编写了一个爬虫,其中我使用cxxpath查询来查找foruri标记为//@foruri,它应该给我foruri标记,无论它存在于何处,但问题是它不会产生http:

所以帮助我得到它?

1 个答案:

答案 0 :(得分:0)

假设您希望提取所有&lt; p&gt;的 foruri 属性标记:

hxs.select('//p/@foruri').extract()