由于命令外壳中的非Unicode字符,Scrapy print语句无法正常工作

时间:2014-07-05 23:16:56

标签: python unicode scrapy command-prompt

我在Windows Vista 64位上运行Python.org版本2.7 64位。我有一个Scrapy刮刀,我在BBC体育网站上测试似乎工作正常。我已经转移到维基百科只是为了看它是否适用于其他网站。代码如下:

from scrapy.spider import BaseSpider
from scrapy.selector import Selector
from scrapy.utils.markup import remove_tags

class MySpider(BaseSpider):
    name = "bbc"
    allowed_domains = ["wikipedia.org"]
    start_urls = ["http://en.wikipedia.org/wiki/Asia"]

    def parse(self, response):
        titles = response.selector.xpath("normalize-space(//title)")
        for titles in titles:
            body = response.xpath("//p").extract()
            body2 = "".join(body)
            body2 = unicode(body2)
            print remove_tags(body2)

我添加了unicode语句,因为我不断收到有关非Unicode字符的错误,而Command Shell无法在我目前所查看的所有维基百科页面上显示。

我不确定为什么这句话没有把我的scrape转换成Unicode并允许它打印出来。谁能在这里看到这个问题?

由于

0 个答案:

没有答案