我正在使用Ruby在指向另一个资源(例如另一个HTML页面)的网页中查找/存储所有链接。
很明显,下面的链接是真实的链接:
<a href="/resource">Dummy 3</a>
我遇到了如下所示的链接,这些链接并不是真正的资源链接:
<a href="#">Dummy</a>
<a href="javascript:void()">Dummy 2</a> //a javascript link could redirect me to another resource, but I am not interested in these
我正试图提出一个排除以上2个链接的规则。
除了“#”以及以“ javascript:”开头的任何内容,我是否应该排除其他链接?
答案 0 :(得分:0)
您是否认为要为此使用宝石?有些人已经完成了获取此类信息的工作,您也可以使用它。
我很快找到了一个,但有几个。 看一看: https://github.com/alexpeattie/nitlink#usage