如何防止Scrapy爬虫转换编码字符?

时间:2013-06-15 15:25:50

标签: scrapy

我是Scrapy的新手,遇到了一个我无法找到答案的问题。

我正在尝试抓取的其中一个网站使用网址中的编码字符,特别是%2F。 Scrapy正在将%2F转换为“/”,并且GET请求返回404错误页面。

奇怪的是,%3D也在URL中,但Scrapy不会将其转换为“=”。

以下是该网页源代码中的示例网址:

/example/Product-SKU-512MCTR-T%2FA-Detail/444172?h=5&rr=0.14&hitprm=h%3D

以下是Scrapy试图抓取的内容:

/example/Product-SKU-512MCTR-T/A-Detail/444172?h=5&rr=0.14&hitprm=h%3D

以下是蜘蛛代码的片段:


class MySpider(CrawlSpider):
    name = "test"
    RANDOMIZE_DOWNLOAD_DELAY = True
    allowed_domains = ["test.com"]
    start_urls = [  
    "http://www.test.com/jsp/results?h=#prows=100&sm=0"
    ]

    rules = (
        Rule (SgmlLinkExtractor(allow=('example', )), callback="parse_auctions", follow= True),
    )

0 个答案:

没有答案