来自https://github.com/scrapinghub/portia#running-a-portia-spider
的给定语法portiacrawl PROJECT_PATH SPIDER_NAME
我试过了
portiacrawl D:/portia-master/slyd/data/projects/darkwoods example
portiacrawl slyd/data/projects/darkwoods example
portiacrawl slyd/data/projects/darkwoods
但是他们给了我同样的帮助信息。
Usage: portiacrawl <project dir/project zip> [spider] [options]
Allow to easily run slybot spiders on console. If spider is not given, print a
list of available spiders inside the project
Options:
-h, --help show this help message and exit
--settings=SETTINGS Give specific settings module (must be on python path)
--logfile=LOGFILE Specify log file
-a NAME=VALUE Add spider arguments
-s NAME=VALUE Add extra scrapy settings
-o FILE, --output=FILE
dump scraped items into FILE (use - for stdout)
-t FORMAT, --output-format=FORMAT
format to use for dumping items with -o (default:
jsonlines)
-v, --verbose more verbose
我对波蒂亚很新,所以我很困惑该做什么。任何人都可以给我一个样本,我应该为PROJECT_PATH写什么?我目前正通过流浪汉使用portia。
答案 0 :(得分:1)
我忘了它是哪个问题,但在使用命令portiacrawl之前有人提到cd到目录。在探索了vagrant一段时间之后,我在/ vagrant / slyd / data / projects中找到了该目录。
所以要运行portiacrawl,你只需要在执行portiacrawl之前cd到portia目录
portiacrawl /vagrant/slyd/data/projects/[project name] [spider] [options]
我运行了这个命令并且有效
portiacrawl /vagrant/slyd/data/projects/darkwoods example
答案 1 :(得分:0)
您可以使用scrapyd来运行蜘蛛。
curl http://your_scrapyd_host:6800/schedule.json -d project=your_project_name -d spider=your_spider_name
通过这种方式,您还可以对蜘蛛进行基本监控。我还发现了一个快速简单的Web界面,有助于在使用scrapyd部署蜘蛛后部署它: https://gist.github.com/MihaiCraciun/78f0a53b7a99587d178b
希望它有所帮助!
答案 2 :(得分:0)
我创建了可在github找到的portia-dashboard,在docker hub也可以使用泊坞窗图片。使用portia-dashboard,您可以通过在简单的Web界面中单击鼠标来部署项目,启动蜘蛛或监视作业状态。请参阅doc以获取有关如何启动蜘蛛的详细信息。