我有一份来自约的名单。 36,000个网址,范围从https://www.fff.fr/la-vie-des-clubs/1/infos-cles到https://www.fff.fr/la-vie-des-clubs/36179/infos-cles(其中一些页面返回404错误)。
每个页面都包含一个数字(足球俱乐部包含的球队数量)。在HTML文件中,数字显示为<p class="number">5</p>.
使用URL和相关联的团队数量作为字段编译excel或csv文件是否有一种相当简单的方法?
我已经尝试过调试phantomJS,但我的方法需要10秒才能打开一个网页,我真的不想花100个小时这样做。我无法弄清楚如何(或者是否可能)使用诸如import.io之类的抓取工具来执行此操作。
谢谢!
答案 0 :(得分:0)
对于你想要达到的目标,我可以看到两个解决方案:
用Java编写代码:Jsoup +任何CSV库
几分钟后,可以轻松下载36000多个网址。
使用 scrapinghub.com
中的Portia工具Portia是一个WYSIWYG工具,可以帮助您快速创建项目并运行它。他们提供免费计划,可以管理36000多个链接。