我正在创建一个搜索引擎(用于学习),我想知道Google如何使用Safesearch(http://en.wikipedia.org/wiki/Safesearch)识别成人内容和图像。
程序语言并不重要,我只想知道通用程序语言的方法。
答案 0 :(得分:14)
如果任何类型的内容过滤器的规则落入试图通过过滤器获取该内容的人手中,过滤器将变得无效。
所以我认为Google的规则(1)不公开,(2)经常更改。
那就是说,从成人网站的小黑名单开始,并跟随外向链接(和/或找到链接到黑名单网站的网站)可能会发现大量的成人网站。但绝不是全部,你还需要某种文本处理和图像识别算法。
注意:一个流行的理论是,成人内容提供商付费给人们在stackoverflow.com上提问,这样Jon Skeet和Marc Gravell将有更少的时间来更新安全搜索过滤器。然而,很容易证明Jon和Marc以如此高的速度回答问题,任何这样的策略在经济上都不可行。
答案 1 :(得分:3)
Ben的答案对所有观点都是正确的,但我想补充一点我的注意事项。
关于图像识别:在给定大量图像的情况下,您会发现使用模式识别来识别裸露的乳房,阴茎等内部物体非常容易。
然而,所有人工智能算法都存在缺陷。根据所使用的分类器的质量,您可能会遇到一定比例的图像被错误分类。
然后,您必须应用除图像处理以外的其他条件。当然Google的标准不公开,但您希望将ICRA标记用于将某些材料标记为成人素材,文本处理和跨域链接。如果我是Safesearch的创建者,我会采用以下模式:成人网站经常交换链接,因此您可以在一组成人网站之间的链接图中找到许多交叉点。
总而言之,良好的分类方法使用了几个较小的标准,评分它们来确定图像是否是成人图像。
答案 2 :(得分:2)
我敢打赌它很复杂。
也许对于文字,他们会过滤包含超过n
或n%
成人相关字词的网页。
对于图像,也许他们会查看每个图像被找到的页面上的文件名和周围文本,如果它充满了成人单词,则对其进行过滤。他们也可以实际扫描图像,寻找肤色和裸体的人。
答案 3 :(得分:2)
可能与过滤垃圾邮件的方式类似。
第一步是根据已知的成人网站创建一个训练集,并从中提取特征。这些可以是关键字,图像中使用的颜色,域名结构,whois详细信息等等。与非成人内容相比,任何可能在某种程度上与成人内容明显不同的内容。
下一步是应用某种统计模型。贝叶斯模型似乎适用于垃圾邮件,但可能不适合成人的东西。
Support vector machines看起来很合适,但这更复杂,而且我自己并不熟悉它。