Question

来自https://github.com/scrapinghub/portia#running-a-portia-spider

的给定语法

portiacrawl PROJECT_PATH SPIDER_NAME

我试过了

portiacrawl D:/portia-master/slyd/data/projects/darkwoods example
portiacrawl slyd/data/projects/darkwoods example
portiacrawl slyd/data/projects/darkwoods

但是他们给了我同样的帮助信息。

Usage: portiacrawl <project dir/project zip> [spider] [options]

Allow to easily run slybot spiders on console. If spider is not given, print a
list of available spiders inside the project

Options:
  -h, --help            show this help message and exit
  --settings=SETTINGS   Give specific settings module (must be on python path)
  --logfile=LOGFILE     Specify log file
  -a NAME=VALUE         Add spider arguments
  -s NAME=VALUE         Add extra scrapy settings
  -o FILE, --output=FILE
                        dump scraped items into FILE (use - for stdout)
  -t FORMAT, --output-format=FORMAT
                        format to use for dumping items with -o (default:
                        jsonlines)
  -v, --verbose         more verbose

我对波蒂亚很新，所以我很困惑该做什么。任何人都可以给我一个样本，我应该为PROJECT_PATH写什么？我目前正通过流浪汉使用portia。

Answer 1

我忘了它是哪个问题，但在使用命令portiacrawl之前有人提到cd到目录。在探索了vagrant一段时间之后，我在/ vagrant / slyd / data / projects中找到了该目录。

所以要运行portiacrawl，你只需要在执行portiacrawl之前cd到portia目录

portiacrawl /vagrant/slyd/data/projects/[project name] [spider] [options]

我运行了这个命令并且有效

portiacrawl /vagrant/slyd/data/projects/darkwoods example

Answer 2

您可以使用scrapyd来运行蜘蛛。

curl http://your_scrapyd_host:6800/schedule.json -d project=your_project_name -d spider=your_spider_name

通过这种方式，您还可以对蜘蛛进行基本监控。我还发现了一个快速简单的Web界面，有助于在使用scrapyd部署蜘蛛后部署它： https://gist.github.com/MihaiCraciun/78f0a53b7a99587d178b

希望它有所帮助！

Answer 3

我创建了可在github找到的portia-dashboard，在docker hub也可以使用泊坞窗图片。使用portia-dashboard，您可以通过在简单的Web界面中单击鼠标来部署项目，启动蜘蛛或监视作业状态。请参阅doc以获取有关如何启动蜘蛛的详细信息。

我如何开始运行portia spider？

3 个答案: