音乐检索

【笔记】数字音频指纹技术综述


1. 定义:可以代表一段音乐重要声学特征的基于内容的紧致数字签名, 其主要目的是建立一种有效机制来比较两个音频数据的感知听觉质量。
一个音频指纹系统通常包括两个部分: 即一个计算听觉重要特征的指纹提取算法和一个在指纹数据库中进行有效搜索的比对算法。

2. 数字水印和音频检索中指纹概念区别:
在数字水印技术:一种用于盗版源头跟踪的经过特殊设计的水印信息, 对音像制品的每个拷贝嵌入不同的水印, 在发现盗版时即可据此发现盗版分发的源头, 其主要理论基础是通信理论中各种具有正交性的码字
设计。
音频指纹: 即首先提取基于重要音频内容的紧致表示, 然后用其在指纹数据库中搜索未知音频的音频识别技术。
又名: 鲁棒性比对 (Robust M atch ing)、 鲁棒/感知散列法 (Robustö Percep tual H ash ing)、 被动水印 (Passive Watermarking)、 自动音乐识别 (Automatic Music Recognition )、 基于内容的数字签名 (Content-based Digital Signatures) 和基于内容的音频识别 (Content-based Audio Identification). 和数字指纹技术相关的领域包括信息检索 ( Information Retrieval)、 模式识别 (Pattern Recognition)、 信号处理
(Signal Processing)、 密码学 (Cryptography) 和音乐认知学(Music Cognition) 等。

3. 数字指纹与哈希函数区别:
按照听觉相似性原则应该视为相等, 他们的波形数据和由此计算的 Hash 值却完全不同。
听觉相似的音频数据只能产生相似但不是数学相等的音频指纹, 而听觉不相似的音频则以很高的概率产
生不相似的指纹。

4. 音频指纹的性质
4.1 准确性: 包括正确识别率、 漏检率 (False negative) 和误检率 (False positive).
4.2 鲁棒性: 指未知音频能在经受比较严重的音频信号处理后仍然能够被识别出来. 这些失真包括 GSM 和MP3 等有损压缩、 由于剪切或错位引起的失同步、 变调、 均衡化、噪声、D/A 、A/D 转换等. 为了得到强鲁棒性, 指纹必须基于听觉重要内容的音频特征提取, 从而在一定程度上实现对信号处理的不变性。
4.3 区分性: 即不同歌曲之间的指纹应该具有较大的差异, 而同一音乐不同版本之间的指纹应该具有很小的差异.
4.4 可靠性: 即一首歌曲被正确识别的几率, 通常用误检率 (False po sitive) 来衡量. 一首歌曲被错误识别的概率越小,该系统可靠性就越高. 在数字水印技术中, False negative 是最关键的参数, 因为把一个有版权的音频判断成没有版权会严重损害水印系统的信誉; 而在指纹检索系统中, False positive 是最重要的参数, 因为它把本来在数据库中没有相似性的指纹说成是相似的, 这会严重影响检索系统的可信度。
4.5 指纹尺寸: 为进行快速搜索, 指纹一般存于内存中, 大小用比特数/秒或比特数/歌表示. 指纹的尺寸在很大程度上决定指纹数据库的内存容量。
4.6 粒度: 粒度是一个依赖于应用的参数, 即需要多少秒的未知音频片段来识别整首音频. 在一些应用中, 需要用整首歌曲来进行识别, 但其他一些应用中可能只需要一小段音频就可以识别整首歌曲。
4.7 搜索速度: 对实际商业应用的音频指纹系统来说, 检索速度是一个关键的参数. 通常要求使用有限计算资源如普通 PC 机在一个 10 万首歌曲的指纹数据库中搜索速度在毫秒量级.
4.8 可伸缩性: 指数据库含有非常多指纹条目或存在非常多并发识别请求时的系统性能, 这会影响系统的准确性和复杂性.
4.9 通用性: 能够对不同音频格式进行识别和使用同样数据库进行不同应用的能力.
4.10 安全性: 对抗恶意欺骗指纹识别系统操作的能力.
以上这些因素互相具有很大的影响。

5. 音频指纹的一般使用模型:
5.1 音频识别
5.2 内容完整性校验
5.3 辅助水印
5.4 基于内容的音频检索和处理

6. 数字音频指纹的典型应用
6.1 音乐识别,如听歌识曲
6.2 音频内容控制和跟踪
6. 2. 1 发行端监控
内容发布者在电台音乐数据库里寻找一段音乐以决定他们是否有权播放.
6. 2. 2 传输信道监控
版权所有者要监视电台是否已支付版权费, 并进行播放统计. 广告商也需要监视是否按协议播放. 此应用必须即时更新数据库.
6. 2. 3 消费者端监控
禁止消费者错误使用音频信号. 用指纹识别歌曲后可以用指纹来控制 CD、DVD、M P3 播放器等电子设备的行为.
6. 3 增值服务
也就是获取自己想要的信息啦。
6.4 完整性校验系统
6.5 其他应用

7. 算法设计
7.1 算法设计准则:
(1)语义特征类指纹: 基于感知类音频特征如明亮度、 音乐流派、 每分钟的节拍数、 作品基调等. 这些特征通常具有明确的含义, 并可直接应用于音乐分类、 产生播放列表等应用.
(2)非语义类指纹: 基于物理类音频特征如能量、 谱特性、基频等, 即具有更明确数学形式的低层特征, 但人耳不能直接从音乐中听到. 一个典型例子是M PEG27 标准中提出的音频描述Audio Flatness.
7.2 典型算法见论文(超多、超有用)

阅读文献:
[1]李伟,李晓强,陈芳,王淞昕. 数字音频指纹技术综述[J]. 小型微型计算机系统,2008,(11):2124-2130. [2017-08-14].

Be the First to comment.

Leave a Comment

电子邮件地址不会被公开。 必填项已用*标注

This site uses Akismet to reduce spam. Learn how your comment data is processed.