Scrapy无法找到蜘蛛

时间:2017-01-01 06:10:17

标签: python shell web-scraping scrapy scrapy-spider

我正在通过这个(1)教程。

我正在从命令行创建的scrapy项目文件夹中工作:

  

用户/ MYNAME /桌面/ MyProject的/ MyProject的/蜘蛛/ MyProject_spider.py

我的代码是

import [everything necessary]

class myProjectSpider(CrawlSpider):
    name = 'myProject'
    allowed_domains = ['http://www.reddit.com/r/listentothis']
    start_urls = ['http://www.reddit.com/r/listentothis']
    rules = (Rule(LinkExtractor(allow=('http://www.reddit.com/r/listentothis/.+'), deny_domains=('www.youtube.com', 'www.soundcloud.com', 'www.reddit.com/user/.+')),'parse_start_url',follow=False),)

    def parse_start_url(self, response):
        hxs = HtmlXPathSelector(response)
        title1 = hxs.select('class="Title"').extract(text)
        yield request

在命令行中,我导航到桌面> MyProject并输入

scrapy crawl myProject

我总是得到的错误是

  

"未找到蜘蛛:myProject。"

我尝试使用不同的名称(使蜘蛛名称与类名匹配,使类lame与文件名匹配,使文件名与项目名称匹配,以及上述的每个组合),和我尝试从项目中的不同文件中调用命令。

1 个答案:

答案 0 :(得分:0)

从当前文件夹中,您需要运行scrapy runspider MyProject_spider 如果你想抓取你需要创建一个项目,将MyProject_Spider.py放在spider目录中,然后转到顶级目录并运行scrapy crawl myProject