我正在使用Python进行爬行,并且希望能够识别(但不完美)我遇到的闪存 - 无论是视频,广告,游戏还是其他任何内容。
我认为我必须反编译swf,这似乎是可行的。但是我会用反编译的Actionscript做什么样的处理来弄清楚它的用途是什么?
编辑:或者也欢迎任何更好的想法。
答案 0 :(得分:4)
我认为你最好的选择是检查你看到swf文件的上下文
通常它们嵌入在网页中,所以如果该页面有100个“游戏”一词,那么它可能是一个游戏,作为一个例子
要检测广告可能会比较棘手,但我认为检查托管swf的域名可能会有所帮助,swf周围的html标签也会很有用
答案 1 :(得分:2)
查看传递给Flash电影的参数可能会有所帮助。如果有参考FLV文件的话,很有可能使用SWF来播放电影。
SWF的路径也可能有所帮助。如果它位于/ ads目录下,那么它可能只是一个横幅广告。或者,如果它在/游戏之下,则可能是游戏。
除了使用这样的启发式方法之外,你可能做的并不多。 SWF可以用于很多不同的事情,SWF本身并没有什么可以告诉你它是什么“类型”。
答案 2 :(得分:0)
艰难的一个。我想你应该尝试找一个swf上下文的范围。 正如你所说,swfs可以是:广告,游戏,视频播放器,它们也可以包含实验艺术。 谁知道。一旦你知道你的追求是什么,就应该更容易找出如何寻找那种数据。
我认为开始使用商业网站会更容易。那些需要促销,所以如果他们可能会考虑到一点点SEO的促销ria的设置,所以寻找像swfobject,swfaddress和跟踪的东西(omniture和谁知道还有什么)。他们应该在嵌入html中有关键字。
据我所知,谷歌和雅虎正与Adobe合作,使SWF可转换。在Flash Internals presentation from Adobe MAX中提到了一些用于Flash索引的自定义FlashPlayer。 希望它有所帮助。