如何创建一个调用python web scraping脚本的Web服务?

时间:2015-12-16 15:49:40

标签: python python-2.7 web-scraping bottle

我是一个python初学者,我需要一些帮助来创建一个调用python web scraping脚本(一个课程的任务)的Web服务。

我可以使用Bottle来创建Web服务。我想使用static_file来调用脚本,但我不确定,因为文档说static_file是用于CSS。

首先想法是创建Web服务,然后使用服务器上的Web抓取脚本。

感谢您的帮助和哥伦比亚的问候!

P.S。我没有优秀的英语,但我希望有人能理解我并帮助我。

2 个答案:

答案 0 :(得分:0)

你可以试试我发现的这个指南:

http://docs.python-guide.org/en/latest/scenarios/scrape/

对于xpath的东西,我建议使用Mozilla Firefox和#34; Firebug"撑着。它可以为您生成xpath,这将帮助您更快地编写脚本

答案 1 :(得分:0)

  1. 除非它已经在函数中,否则请编辑您的报废脚本,以便您的代码包含在一个返回所需信息的函数中。它应该像缩进所有内容一样简单并添加def main():
  2. 假设您的脚本名为scrapper.py,它与您的瓶控制器一起位于控制器文件的顶部,添加import scrapper
  3. 在回调中
  4. ,您可以拨打scrapper.main()
  5. (不确定为什么在这里粘贴代码不会在下面格式化)

    说到这里,通常不好的做法就是在请求中像抓取脚本那样长时间运行。您通常希望使用一个报废作业队列,您的控制器帖子可以在其中进行操作,您的报废者会对其进行处理,并在完成缓存结果时通知它。

    from bottle import route, run
    import scrapper
    
    @route('/scrap')
    def scrap():
        return scrapper.main()