如何判断内部链接是否指向静态资源?

时间:2018-11-20 16:28:45

标签: ruby parsing dom

我正在使用Ruby在指向另一个资源(例如另一个HTML页面)的网页中查找/存储所有链接。

很明显,下面的链接是真实的链接:

<a href="/resource">Dummy 3</a>

我遇到了如下所示的链接,这些链接并不是真正的资源链接:

<a href="#">Dummy</a>
<a href="javascript:void()">Dummy 2</a> //a javascript link could redirect me to another resource, but I am not interested in these

我正试图提出一个排除以上2个链接的规则。

除了“#”以及以“ javascript:”开头的任何内容,我是否应该排除其他链接?

1 个答案:

答案 0 :(得分:0)

您是否认为要为此使用宝石?有些人已经完成了获取此类信息的工作,您也可以使用它。

我很快找到了一个,但有几个。 看一看: https://github.com/alexpeattie/nitlink#usage