Question

怎么会这样呢：
我有一个包含约160页的列表，每个页面包含±5个子菜单。总的来说，我必须检查800页中的特定标签，并返回缺少特定标签的页面。

到目前为止，我想出了这个伪代码（用Python思考）

for each URL in URL_list
    fetch pagesource
    for each submenu_link in pagesource
        fetch pagesource
        if string "<h2 class=\"subtitle\">" is not in pagesource:
        print submenu_link + "subtitle missing"

你怎么看？错误的方法？
不知道我应该使用哪个网络爬虫库/模块或编程语言 - 欢迎提出建议！

Answer 1

我目前正在使用scrapy，这是pyhton中易于理解的网络抓取工具。

我链接了教程，因为它会让你比doc更快地学习。玩得开心

Web爬网程序：检查多个网页的子页面以查找特定字符串

1 个答案: