Question

我想在临时互联网文件文件夹中的不同.js文件中仅提取与URL模式匹配的文本（没有垃圾邮件）（需要将其用于审计目的）。

我认为我可以使用：

find . -name "*.js" -exec cat {} \; grep 'string'

实际上是我想要的东西。

这没有'正常工作，所以我尝试了不同的组合：

find . -name "*.js" -exec cat {} \; grep http | grep -shoP 'http.*?[" >]'

这是一个很好的，但我们还没有......它给我带有双引号的垃圾等。

所以我添加了：

find . -name "*.js" -exec cat {} \; grep http | grep -shoP 'http.*?[" >]' |
sed s'/".*//g'

这会删除某些网址末尾的"，但有些东西告诉我它可能会破坏其中一些网址。

剩下的问题是：我像垃圾一样

http"
https"
http'

依旧......

我需要的只是“真正的”网址。

然后我会在计时器的某个循环中运行它，打开Internet Explorer中的每一行，以测试这些是否真的是恶意网站（我们现在正在处理这种情况）。