我尝试从
抓取一些搜索结果使用命令
response.css('div.search_result_title').extract()
可以使用,但是当我尝试删除html标签时
response.css('div.search_result_title::text').extract()
但我不断得到\ n \ n \ n \ n \ n \ n \ n
[u'\ n',u'\ n(已分解)\ n',u'\ n',u'\ n',u'\ n',u'\ n',u'\ n' ,u'\ n',u'\ n',u'\ n',u'\ n',u'\ n',u'\ n',u'\ n',u'\ n',u '\ n',u'\ n',u'\ n',u'\ n',u'\ n',u'\ n',u'\ n',u'\ n',u'\ n',u'\ n',u'\ n',u'\ n',u'\ n',u'\ n',u'\ n']
你们知道为什么吗?谢谢!
答案 0 :(得分:0)
是否要获取标题的文本?您在a
中有div
,因此,您会得到很多空数据。使用div.search_result_title a::text
。
关于获取整段文字的第二个问题:
for i in response.css('div.searchResult'):
print ' '.join([j.strip() for j in i.css('::text').extract() if j.strip()])