Scraper-如何保存和存储表情符号

时间:2018-09-08 10:42:58

标签: python web-scraping scrapy-spider scrape scraper

我目前在python 3.x和ubuntu环境下使用https://scrapy.org/中的Scraper, 我想以某种方式在论坛上获得用户评论,并且其中包含文字和表情符号。

想知道如何将这些表情符号保存到数组中,以便我可以在cvs或json中看到它?

谢谢

2 个答案:

答案 0 :(得分:0)

可能是HTML结构引起的。如果子元素中提供了表情符号,则可以在string()表达式中使用xpath函数。

response.xpath('string(.//xpath/to/comment)')

答案 1 :(得分:0)

如果您至少可以提供页面的HTML,那就很好了。

如果表情符号和文本包含在父元素中,则让div带有如下注释类。

<div class="comment">
    <div class="description">This is a comment.</div>
    <span>:-)</span>
</div>

然后,您可以使用以下XPath或CSS选择器。

response.css('.comment ::text').extract()

response.xpath('.//div[@class="comment"]//text()').extract()