我如何开始运行portia spider?

时间:2014-11-02 09:35:44

标签: scrapy vagrant portia

来自https://github.com/scrapinghub/portia#running-a-portia-spider

的给定语法
portiacrawl PROJECT_PATH SPIDER_NAME

我试过了

portiacrawl D:/portia-master/slyd/data/projects/darkwoods example
portiacrawl slyd/data/projects/darkwoods example
portiacrawl slyd/data/projects/darkwoods

但是他们给了我同样的帮助信息。

Usage: portiacrawl <project dir/project zip> [spider] [options]

Allow to easily run slybot spiders on console. If spider is not given, print a
list of available spiders inside the project

Options:
  -h, --help            show this help message and exit
  --settings=SETTINGS   Give specific settings module (must be on python path)
  --logfile=LOGFILE     Specify log file
  -a NAME=VALUE         Add spider arguments
  -s NAME=VALUE         Add extra scrapy settings
  -o FILE, --output=FILE
                        dump scraped items into FILE (use - for stdout)
  -t FORMAT, --output-format=FORMAT
                        format to use for dumping items with -o (default:
                        jsonlines)
  -v, --verbose         more verbose

我对波蒂亚很新,所以我很困惑该做什么。任何人都可以给我一个样本,我应该为PROJECT_PATH写什么?我目前正通过流浪汉使用portia。

3 个答案:

答案 0 :(得分:1)

我忘了它是哪个问题,但在使用命令portiacrawl之前有人提到cd到目录。在探索了vagrant一​​段时间之后,我在/ vagrant / slyd / data / projects中找到了该目录。

所以要运行portiacrawl,你只需要在执行portiacrawl之前cd到portia目录

portiacrawl /vagrant/slyd/data/projects/[project name] [spider] [options]

我运行了这个命令并且有效

portiacrawl /vagrant/slyd/data/projects/darkwoods example

答案 1 :(得分:0)

您可以使用scrapyd来运行蜘蛛。

curl http://your_scrapyd_host:6800/schedule.json -d project=your_project_name -d spider=your_spider_name

通过这种方式,您还可以对蜘蛛进行基本监控。我还发现了一个快速简单的Web界面,有助于在使用scrapyd部署蜘蛛后部署它: https://gist.github.com/MihaiCraciun/78f0a53b7a99587d178b

希望它有所帮助!

答案 2 :(得分:0)

我创建了可在github找到的portia-dashboard,在docker hub也可以使用泊坞窗图片。使用portia-dashboard,您可以通过在简单的Web界面中单击鼠标来部署项目,启动蜘蛛或监视作业状态。请参阅doc以获取有关如何启动蜘蛛的详细信息。