web-crawler - 如何在没有内容的情况下收集网站上的所有链接？

如何在没有内容的情况下收集网站上的所有链接？

时间：2010-08-04 13:13:02

标签： web-crawler robots.txt

我想将网站链接到的所有网址（在同一个域中），而不是像wget那样下载所有内容。有没有办法告诉wget只列出它将下载的链接？

如果有人可以提出更好的解决方案，那么我正在使用它的一些背景知识：我正在尝试构建一个robots.txt文件，该文件排除以p [4-9]结尾的所有文件。 html但robots.txt不支持正则表达式。所以我试图获取所有链接，然后针对它们运行正则表达式，然后将结果放在robots.txt中。有什么想法吗？

1 个答案:

答案 0 :(得分：0)

我的建议：将wget和gawk结合在一个（非常）小的shell脚本中。

维基百科上的AWK概述：http://en.wikipedia.org/wiki/AWK

如何在没有内容的情况下收集网站上的所有链接？
收集* .txt文件的所有链接
使用量角器js和mocha如何阅读网站上的所有链接？
如何使mediawiki网站上的所有链接绝对
如何创建一个可以收集所有内容的php函数
如何在没有前端的网站上获得分析？
从youtube用户网页收集所有视频链接
如何创建没有链接的菜单？
如何从网页收集所有链接？
如何收集功能文件的所有标签？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？