如何从特定域中提取URL列表?

时间:2017-07-08 16:09:12

标签: firefox web-scraping extract extraction

我正在使用Firefox 53,并且使用Scrapbook X并希望使用“保存多个URL”功能来保存大量页面,但在此之前,我想要提取特定的URL列表,而无需手动执行此操作

我正在寻找从中提取数据的网站是www.address-data.co.uk - 即this page

我想要做的只是提取该页面内的网址和子页面,但不提取隐私政策或联系我们页面以及所有带有EH邮政编码的子页面。

有没有办法在线执行此操作,或任何可以找到所有相关URL的Mac OS X工具,然后再将它们复制到Scrapbook的Save Multiple URL(我将它们保存在Scrapbook的子文件夹中)?

1 个答案:

答案 0 :(得分:0)

我认为EH45是您想要从您提到的页面中提取的典型内容。就像它的兄弟姐妹一样https://address-data.co.uk/postcode-district-EH<postcode number>

这意味着如果你有一个数字或邮政编码列表,你可以制作完整的网址列表。

我回答的主要困难是,我不知道您可以使用哪些工具(尤其是编程工具)。我将假设您已经或可以获得对可以执行宏或可以编辑列的编辑器的访问权限。在Windows上我会使用Emerald(俗称Crimson)。

然后在EH页面(而不是表格标题)中复制表格的内容,并删除除第一列以外的所有内容。最后,使用&#39; https://address-data.co.uk/postcode-district-&#39;。

预先添加列中的每个项目

PS:这也可能是放在SuperUser上的一个很好的问题。