如何在自定义python脚本中从scrapy抓取网站后获取网址列表?

时间:2015-03-17 06:01:45

标签: python python-2.7 web-crawler scrapy

我正在使用我需要抓取网站的脚本,只需要抓取base_url网站。谁知道如何在自定义python脚本中启动scarpy并在列表中获取url链接?

2 个答案:

答案 0 :(得分:0)

您可以使用文件将scrapy中的URL传递给python脚本。

或者您可以在scrapy中打印带有标记的URL,并使用您的python脚本来捕获scrapy的标准。然后将其解析为列表。

答案 1 :(得分:0)

您可以通过将scrapy.commands部分添加到setup.py的entry_points中,从外部库添加Scrapy命令。

from setuptools import setup, find_packages

setup(name='scrapy-mymodule',
  entry_points={
    'scrapy.commands': [
      'my_command=my_scrapy_module.commands:MyCommand',
    ],
  },
 )

http://doc.scrapy.org/en/latest/experimental/index.html?highlight=library#add-commands-using-external-libraries

另见Scrapy Very Basic Example