我在Windows Vista 64位上运行Python.org版本2.7 64位。我有一个Scrapy刮刀,我在BBC体育网站上测试似乎工作正常。我已经转移到维基百科只是为了看它是否适用于其他网站。代码如下:
from scrapy.spider import BaseSpider
from scrapy.selector import Selector
from scrapy.utils.markup import remove_tags
class MySpider(BaseSpider):
name = "bbc"
allowed_domains = ["wikipedia.org"]
start_urls = ["http://en.wikipedia.org/wiki/Asia"]
def parse(self, response):
titles = response.selector.xpath("normalize-space(//title)")
for titles in titles:
body = response.xpath("//p").extract()
body2 = "".join(body)
body2 = unicode(body2)
print remove_tags(body2)
我添加了unicode语句,因为我不断收到有关非Unicode字符的错误,而Command Shell无法在我目前所查看的所有维基百科页面上显示。
我不确定为什么这句话没有把我的scrape转换成Unicode并允许它打印出来。谁能在这里看到这个问题?
由于