Question

嘿我有一个html页面，其中包含例如以下标记：

<p foruri="http://doc.scrapy.org/getting-help:solving-specific-problems" rec="lang.en" id="solving-specific-problems">Hello world!!! From my authoring tool.</p>

<p foruri="http://doc.scrapy.org/getting-help:getting help" rec="lang.en" id="getting help">Hello world!!! From my authoring tool.</p>

现在我在python中使用scrapy框架编写了一个爬虫，其中我使用cxxpath查询来查找foruri标记为//@foruri，它应该给我foruri标记，无论它存在于何处，但问题是它不会产生http：

所以帮助我得到它？

Answer 1

假设您希望提取所有＆lt; p＆gt;的 foruri 属性标记：

hxs.select('//p/@foruri').extract()

制定xpath查询？

1 个答案: