我使用scrapy在python 3.6中构建了几个scraper。
但是,我经常会收到奇怪的符号,例如Â
中的混乱数据。我还会返回整个标语而不是文本。例如。这个:
h3 class =“matrix-heading short clear-hide”Â/ h3,h3 class =“matrix-heading clear-hide”Â/ h3,h3 class =“matrix-heading 漫长的“51周
已从此代码返回:
response.xpath('//div/section/div/h3/text()').extract()
我不明白为什么它会返回整个标语,因为它只返回scrapy shell中的文本。