如何仅从.js文件中提取URL

时间:2016-04-01 17:28:37

标签: javascript sed grep cygwin

我想在临时互联网文件文件夹中的不同.js文件中仅提取与URL模式匹配的文本(没有垃圾邮件)(需要将其用于审计目的)。

我认为我可以使用:

find . -name "*.js" -exec cat {} \; grep 'string'

实际上是我想要的东西。

这没有'正常工作,所以我尝试了不同的组合:

find . -name "*.js" -exec cat {} \; grep http | grep -shoP 'http.*?[" >]' 

这是一个很好的,但我们还没有......它给我带有双引号的垃圾等。

所以我添加了:

find . -name "*.js" -exec cat {} \; grep http | grep -shoP 'http.*?[" >]' |
sed s'/".*//g'

这会删除某些网址末尾的",但有些东西告诉我它可能会破坏其中一些网址。

剩下的问题是:我像垃圾一样

http"
https"
http'

依旧......

我需要的只是“真正的”网址。

然后我会在计时器的某个循环中运行它,打开Internet Explorer中的每一行,以测试这些是否真的是恶意网站(我们现在正在处理这种情况)。

0 个答案:

没有答案