Web爬网程序:检查多个网页的子页面以查找特定字符串

时间:2014-12-19 14:11:32

标签: python curl web-crawler

怎么会这样呢:
我有一个包含约160页的列表,每个页面包含±5个子菜单。总的来说,我必须检查800页中的特定标签,并返回缺少特定标签的页面。

到目前为止,我想出了这个伪代码(用Python思考)

for each URL in URL_list
    fetch pagesource
    for each submenu_link in pagesource
        fetch pagesource
        if string "<h2 class=\"subtitle\">" is not in pagesource:
        print submenu_link + "subtitle missing"
你怎么看?错误的方法?
不知道我应该使用哪个网络爬虫库/模块或编程语言 - 欢迎提出建议!

1 个答案:

答案 0 :(得分:0)

我目前正在使用scrapy,这是pyhton中易于理解的网络抓取工具。

我链接了教程,因为它会让你比doc更快地学习。 玩得开心