Python学习

声音场景/事件分析的一个小介绍[论文阅读]

一、背景
1.1 范畴
声音场景与事件检测属于计算机听觉范畴。和语音识别、说话人识别以及音乐信息检索息息相关。
1.2 问题
面对的问题有声音源多变,相应的声音特征也千变万化,尤其是在生物声学方面。另外,在实际场景中,多声源的声音同时发声,还会出现发射的情况,这样就更复杂了。

二、分类
主要分为两类,声音场景分类(ASC)与声音事件(AER)检测。ASC主要将声音分为不同的场景,如地铁站、吵闹的街道等等。AER对于声音的划分更为精确,如敲门声、枪击声、人群说话声,此外还有一些更特殊的分类,如海洋哺乳动物声音、鸟叫声等生物声音。

三、应用技术

本篇文章主要整理了ASC中的7篇,AER中的10篇。还有在动物声音方面的3篇,鸟叫识别、鸟行为分析以及鸡病检测。这 些文章总体体现了该领域的三种趋势。
3.1 趋势一 无监督特征学习
NMF+deep audo-encoder/spheical k-means 在鸟行为识别上
NMF: extensional bag-of-features framework using codebook leanning and temporalmodelling 应用在表示不同的声音场景上。
Probabilistic counterpart of NMF: supervised representation learning and Probabilistic Lantent Component Analysis 应用在场景检测上。
3.2 趋势二 深度学习
Fully DNN framework 用在音频标注和无监督特征学习上
Feed-forward fully connected DNN 用在ASC特征提取上
获取上下文信息: CNN 用在特征提取和表示学习上; CNN+RNN用在声音事件识别上;TDNN(Time-Delay Neural Networks)用在声音场景和时间识别上。
3.3 趋势三 使用稀疏信息或继承融合概念来提高识别的鲁棒性
融合方面:继承分类器来合并时域和频域上的信息;使用多模态信息;
稀疏信息方面:文本系数频谱特征;二元场景分析技巧等

Reference
Prerna Arora, Reinhold Haeb-Umbach, “A study on transfer learning for acoustic event detection in a real life scenario”, Multimedia Signal Processing (MMSP) 2017 IEEE 19th International Workshop on, pp. 1-6, 2017, ISSN 2473-3628.

2 comments

Leave a Comment

电子邮件地址不会被公开。 必填项已用*标注