我正在使用scrapy,我到了这一点,我想从列表中提取具有以下HTML结构的文本:
u'<div id="someId">'
u'<p><strong>Text1:</strong> next to text 1</p>'
u'<p><strong>Text2:</strong> next to text 2</p>'
u'<p><strong>Text3:</strong> next to text </p>'
u'</div>'
所以我想得到一些文字:
Text1:text1
旁边Text2:text2旁边
Text3:text3旁边
我想尽可能多地使用XPath提取文本,我一直在尝试使用一些XPath谓词而不解决我的问题。
带
response.xpath('//*[@id="someid"]/p/text()').extract()
我没有得到P
中强标签的文字任何帮助都将得到更多的赞赏。
答案 0 :(得分:3)
你很亲密:
'//*[@id="someid"]/p//text()'
这会为list
提供p
标记内的所有文字。