Question

我尝试从

抓取一些搜索结果

https://www.companiesintheuk.co.uk/Company/Find?q=a

使用命令

response.css('div.search_result_title').extract()

可以使用，但是当我尝试删除html标签时

response.css('div.search_result_title::text').extract()

但我不断得到\ n \ n \ n \ n \ n \ n \ n

[u'\ n'，u'\ n（已分解）\ n'，u'\ n'，u'\ n'，u'\ n'，u'\ n'，u'\ n' ，u'\ n'，u'\ n'，u'\ n'，u'\ n'，u'\ n'，u'\ n'，u'\ n'，u'\ n'，u '\ n'，u'\ n'，u'\ n'，u'\ n'，u'\ n'，u'\ n'，u'\ n'，u'\ n'，u'\ n'，u'\ n'，u'\ n'，u'\ n'，u'\ n'，u'\ n'，u'\ n']

你们知道为什么吗？谢谢！

Answer 1

是否要获取标题的文本？您在a中有div，因此，您会得到很多空数据。使用div.search_result_title a::text。

关于获取整段文字的第二个问题：

for i in response.css('div.searchResult'): 
    print ' '.join([j.strip() for j in i.css('::text').extract() if j.strip()])

我的scrpay文本结果不断返回“ \ n \ n”

1 个答案: