在网页上识别广告的机制[特别是AdBlock]

时间:2012-02-25 02:30:56

标签: python open-source web-crawler ads adblock

我目前正在做一个研究项目,我正试图找出一种很好的方法来识别可以访问网页html的广告。

我认为从AdBlock开始可能是一个好主意。 AdBlock是一个阻止广告向用户展示的程序,因此可能会有一种将广告标识为内容的机制。

我下载了AdBlockPlus的源代码,但我发现自己完全丢失了所有文件。我不知道从哪里开始寻找这种检测机制,所以我想知道是否有人对从哪里开始有任何建议。或者,如果您之前已经处理过AdBlock并且熟悉它,我将非常感谢任何额外的信息。

例如,如果网页需要在真实的浏览器中呈现以使用Adblock,那么有些程序会自动加载网页,所以这不会有问题,但我不知道如何判断这就是AdBlock首先做的事情。

注意:AdBlock是用Python和Perl编写的:)

谢谢!

1 个答案:

答案 0 :(得分:3)

我建议你先看看adblock filter rules

然后,一旦您了解了这一点,就可以开始解析各种语言的adblock lists以满足您的需求。