我使用scrapy从网页上抓取文字。在蜘蛛中,我的代码如下:
title = hxs.select("//h1/text()").extract() #1
final_text = title[0].encode('utf-8') #2
这里的问题是 第1行给出[u'Puerto Ban \ xfas'] 第2行给出Puerto Ban \ xc3 \ xbas
但原文是PuertoBanús。如何保存和显示原始文件?
答案 0 :(得分:1)
>>> print u'Puerto Ban\xfas'
Puerto Banús
>>> print 'Puerto Ban\xc3\xbas'
Puerto Banús
我在这里看不到问题。