现在我通过使用Selenium WebDriver,netexport和firebug的组合来获取HAR文件。我可以找到图像和swf文件但是我无法找到它们链接到的网址。
例如,我可以获取swf文件的网址,让我们说http://my.swf.here.swf 但是,我没有一个像样的启发式来查找该文件链接到的内容。我下载了该文件,并尝试从我的桌面点击它,它没有产生链接,也没有反编译文件和窥视里面的代码。我希望能看到一些可以让我做类似moat.com的事情。我想在夏天学习python。
我正在使用正则表达式,我可以使用这个找到(大多数)swfs:
'([http|www|HTTPS|HTTPS|https|Https|Http][^\"|\'|;|,|(|)|{|}|=]*\.swf')
我试过了:
'([http|www|HTTPS|HTTPS|https|Https|Http][^\"|\'|;|,|(|)|{|}|=]*\.swf.*href=.*\"' but I can't find any links.
我的程序提取的har文件的一个例子可以在我的github上找到: https://github.com/thirab/FlashY/tree/master/har
基本上我可以找到图像,但现在该图像链接到了什么。任何想法或更好的启发式方法?