Question

我正在通过这个（1）教程。

我正在从命令行创建的scrapy项目文件夹中工作：

用户/ MYNAME /桌面/ MyProject的/ MyProject的/蜘蛛/ MyProject_spider.py

我的代码是

import [everything necessary]

class myProjectSpider(CrawlSpider):
    name = 'myProject'
    allowed_domains = ['http://www.reddit.com/r/listentothis']
    start_urls = ['http://www.reddit.com/r/listentothis']
    rules = (Rule(LinkExtractor(allow=('http://www.reddit.com/r/listentothis/.+'), deny_domains=('www.youtube.com', 'www.soundcloud.com', 'www.reddit.com/user/.+')),'parse_start_url',follow=False),)

    def parse_start_url(self, response):
        hxs = HtmlXPathSelector(response)
        title1 = hxs.select('class="Title"').extract(text)
        yield request

在命令行中，我导航到桌面＆gt; MyProject并输入

scrapy crawl myProject

我总是得到的错误是

＆＃34;未找到蜘蛛：myProject。＆＃34;

我尝试使用不同的名称（使蜘蛛名称与类名匹配，使类lame与文件名匹配，使文件名与项目名称匹配，以及上述的每个组合），和我尝试从项目中的不同文件中调用命令。

Answer 1

从当前文件夹中，您需要运行scrapy runspider MyProject_spider 如果你想抓取你需要创建一个项目，将MyProject_Spider.py放在spider目录中，然后转到顶级目录并运行scrapy crawl myProject。

Scrapy无法找到蜘蛛

1 个答案: