从分页网站的每个页面检索一个数字

时间:2016-03-21 16:32:57

标签: web-scraping

我有一份来自约的名单。 36,000个网址,范围从https://www.fff.fr/la-vie-des-clubs/1/infos-cleshttps://www.fff.fr/la-vie-des-clubs/36179/infos-cles(其中一些页面返回404错误)。

每个页面都包含一个数字(足球俱乐部包含的球队数量)。在HTML文件中,数字显示为<p class="number">5</p>.

使用URL和相关联的团队数量作为字段编译excel或csv文件是否有一种相当简单的方法?

我已经尝试过调试phantomJS,但我的方法需要10秒才能打开一个网页,我真的不想花100个小时这样做。我无法弄清楚如何(或者是否可能)使用诸如import.io之类的抓取工具来执行此操作。

谢谢!

1 个答案:

答案 0 :(得分:0)

对于你想要达到的目标,我可以看到两个解决方案:

  • 用Java编写代码:Jsoup +任何CSV库

    几分钟后,可以轻松下载36000多个网址。

  • 使用 scrapinghub.com

    中的Portia工具

    Portia是一个WYSIWYG工具,可以帮助您快速创建项目并运行它。他们提供免费计划,可以管理36000多个链接。