嘿 我有一个html页面,其中包含例如以下标记:
<p foruri="http://doc.scrapy.org/getting-help:solving-specific-problems" rec="lang.en" id="solving-specific-problems">Hello world!!! From my authoring tool.</p>
<p foruri="http://doc.scrapy.org/getting-help:getting help" rec="lang.en" id="getting help">Hello world!!! From my authoring tool.</p>
现在我在python中使用scrapy框架编写了一个爬虫,其中我使用cxxpath查询来查找foruri标记为//@foruri
,它应该给我foruri
标记,无论它存在于何处,但问题是它不会产生http:
所以帮助我得到它?
答案 0 :(得分:0)
假设您希望提取所有&lt; p&gt;的 foruri 属性标记:
hxs.select('//p/@foruri').extract()