Question

我正在使用我需要抓取网站的脚本，只需要抓取base_url网站。谁知道如何在自定义python脚本中启动scarpy并在列表中获取url链接？

Answer 1

您可以使用文件将scrapy中的URL传递给python脚本。

或者您可以在scrapy中打印带有标记的URL，并使用您的python脚本来捕获scrapy的标准。然后将其解析为列表。

Answer 2

您可以通过将scrapy.commands部分添加到setup.py的entry_points中，从外部库添加Scrapy命令。

from setuptools import setup, find_packages

setup(name='scrapy-mymodule',
  entry_points={
    'scrapy.commands': [
      'my_command=my_scrapy_module.commands:MyCommand',
    ],
  },
 )

http://doc.scrapy.org/en/latest/experimental/index.html?highlight=library#add-commands-using-external-libraries

另见Scrapy Very Basic Example。

如何在自定义python脚本中从scrapy抓取网站后获取网址列表？

2 个答案: