Youtube内容识别技术?

时间:2009-03-16 02:56:22

标签: algorithm video youtube

我不确定Youtube是否是唯一拥有此技术的网站,但YT(Content ID)中的内容识别基本上是一种自动识别和删除版权侵权的技术。你可以在这里阅读更多相关信息:

http://www.youtube.com/t/contentid

当我的一个视频(包含特定的音乐曲目)因版权侵权而被标记和删除时,我认为[内容ID系统]可能很愚蠢。所以我做了一些实验:没有一个骗过过滤器〜

  • 在歌曲中间添加了一系列哔哔声
  • 通过歌曲多次改变音高
  • 改变音量几次
  • 调整速度
  • 添加了音频叠加层
  • 添加了一些音效

另一方面,我不知道任何材料被错误地匹配为受版权保护的。例如,钢琴版的歌曲不会错误地触发检查员。

我并不是在咆哮我的视频被删除了。我很惊讶内容审查员的效率如何。我想知道这个算法如何正确地将这首歌识别为侵犯版权,即使在我努力绕过它之后。任何直接匹配的尝试都会立即被击败,任何涉及音符模式的算法都可能被哔哔声和音高变化所欺骗。

这更多是我的好奇心,而不是一个紧急的问题。

1 个答案:

答案 0 :(得分:15)

Pedro Moreno和Google / Youtube上的其他人一起工作。他们使用finite-state transducers来识别音乐手机单元的序列,类似于自动语音识别中的音素。

查看这篇文章:

如果你在整首歌曲中改变速度或音高,我会惊讶于这些算法仍能识别这首歌。但也许它们可以将音高和速度(使用节拍之间的时间)标准化,以便能够识别覆盖的版本,而不仅仅是原始版本。但是它可以忽略你添加的嘟嘟声并不奇怪,因为你的音频流有足够的相似性。

(实际上,基于有限状态的算法可以很好地应用于我的iTunes库,正确标记文件。因为像MusicBrainz这样的服务依赖于音频和数据库的或多或少精确的哈希匹配输入,而传感器方法在识别文件时似乎更具差异性。)