我正在通过这个(1)教程。
我正在从命令行创建的scrapy项目文件夹中工作:
用户/ MYNAME /桌面/ MyProject的/ MyProject的/蜘蛛/ MyProject_spider.py
我的代码是
import [everything necessary]
class myProjectSpider(CrawlSpider):
name = 'myProject'
allowed_domains = ['http://www.reddit.com/r/listentothis']
start_urls = ['http://www.reddit.com/r/listentothis']
rules = (Rule(LinkExtractor(allow=('http://www.reddit.com/r/listentothis/.+'), deny_domains=('www.youtube.com', 'www.soundcloud.com', 'www.reddit.com/user/.+')),'parse_start_url',follow=False),)
def parse_start_url(self, response):
hxs = HtmlXPathSelector(response)
title1 = hxs.select('class="Title"').extract(text)
yield request
在命令行中,我导航到桌面> MyProject并输入
scrapy crawl myProject
我总是得到的错误是
"未找到蜘蛛:myProject。"
我尝试使用不同的名称(使蜘蛛名称与类名匹配,使类lame与文件名匹配,使文件名与项目名称匹配,以及上述的每个组合),和我尝试从项目中的不同文件中调用命令。
答案 0 :(得分:0)
从当前文件夹中,您需要运行scrapy runspider MyProject_spider
如果你想抓取你需要创建一个项目,将MyProject_Spider.py放在spider目录中,然后转到顶级目录并运行scrapy crawl myProject
。