如何识别网站上的广告

时间:2011-11-02 13:48:14

标签: webpage analysis ads

我想以编程方式分析网站的内容,并找到可能放置广告的位置(或广告本身)。不同的网站可能会以不同的格式提供来自不同供应商的广告,我希望我的解决方案尽可能多地选择。

您将如何以编程方式解决此问题。到目前为止,我只找到了一个解决方案,但我对此并不满意(原因如下)。

显而易见的解决方案是对源代码进行严格的正则表达式搜索,以寻找特定于广告引擎的JS和/或HTML。我相信这与AdBlock用于从浏览器中的网站剥离广告的方式类似。但是,由于有这么多广告引擎,这既不会有效也不容易维护(即使我们考虑使用AdBlock黑名单来提供搜索引擎)。

我想找到一个更通用的解决方案来解决这个问题,我不一定会寻找最终的解决方案。对问题的不同看法会有所帮助。

1 个答案:

答案 0 :(得分:1)

我认为维护 的广告供应商列表并不困难,特别是考虑到只有少数主要参与者提供90%以上的广告。

如果你不是在寻找一个全能的解决方案,那么检测90%+将是一个可接受的命中率。

以“启发式”方式执行此操作,您可以简单地标记从域提供的任何Flash或类似媒体对象,这些对象与托管页面所在的域不同?