对于人的感官来说,有视觉、听觉、触觉和味觉等方面的感知。在视觉方面,可以感知位置、运动、颜色、纹理、形状、符号等;在听觉方面,可以感知位 置、运动、音调、音量、旋律等;另外还有触觉(机械的、热的、电的、肌肉运动方面的)和嗅觉(气味、味道等)。除了视觉、触觉和嗅觉外,人们可以从听觉中 获得许多信息,如我们日常收听的电台节目、欣赏的音乐、聆听的自然声响等。有许多与音频相关的应用,如音频数据库、广播、音频编辑、监控、在线音乐等。
----音频是多媒体中的一种重要媒体。我们能够听见的音频频率范围是 60Hz~20kHz,其中语音大约分布在300Hz~4kHz之内,而音乐和其他自然声响是全范围分布的。声音经过模拟设备记录或再生,成为模拟音频, 再经数字化成为数字音频。数字化时的采样率必须高于信号带宽的2倍,才能正确恢复信号。样本可用8 位或16位比特表示。 ----以前的许多研究工作涉及到语音信号的处理,如语音识别。机器容易自动识别孤立 的字词,如用在专用的听写和电话应用方面,而对连续的语音识别则较困难,错误较多,但目前在这方面已经取得了突破性的进展,同时还研究了辨别说话人的技 术。这些研究成果将为音频信息的检索提供很大帮助。 ----常规的信息检索(IR)研究主要是基于文本,例如我们已经非常熟悉的诸如 Yahoo!和AltaVista这样的搜索引擎。经典的IR问题是利用一组关键字组成的查询来定位需要的文本文档,即定位文档中的查询关键字来发现匹配 的文档。如果一个文档中包含较多的查询项,那么,它就被认为比其他包含较少查询项的文档更“相关”。于是,文档可以按照“相关”度来排序,并显示给用户, 以便进一步搜索。虽然这种一般的IR过程是为文本设计的,但显然也适用于音频或其他多媒体信息的检索。但是,如果我们把数字音频当成一种不透明的位流来管 理,虽然可以赋予名字、文件格式、采样率等属性,但其中没有可以确认的词或可比较的实体,因此,不能像文本那样搜索或检索其内部的内容。对于音乐和非语音 声响也是这样。 ----基于人工输入的属性和描述来进行音频检索是我们首先想到的方法。该方法的主要 缺点反映在以下几个方面:当数据量越来越多时,人工的注释强度加大;人对音频的感知,如音乐的旋律、音调、音质等,难以用文字注释表达清楚。这些正是基于 内容的音频检索需要研究和解决的问题。但我们同时注意到音频检索可以利用的一个优势,那就是语音是一种特殊类型的音频,它与文本可以互相转换,因此,可以 利用文本检索技术进行概念检索。 ----本文将从信息存取的角度介绍基于内容的音频检索概念和方法。 查询方式
----音频是声音信号的形式。作为一种信息载体,音频可以分为三种类型: ----波形声音 对模拟声音数字化而得到的数字音频信号。它可以代表语音、音乐、自然界和合成的声响。 ----语音 具有字词、语法等语素,是一种高度抽象的概念交流媒体。语音经过识别可以转换为文本。文本是语音的一种脚本形式。 ----音乐 具有节奏、旋律或和声等要素,是人声或/和乐器音响等配合所构成的一种声音。音乐可以用乐谱来表示。 ----不同的类型将具有不同的内在内容。但从整体看,音频内容分为三个级别:{zd1}层 的物理样本级、中间层的声学特征级和{zg}层的语义级,如下图所示。从低级到高级,其内容逐级抽象,内容的表示逐级概括。 ----在物理样本级,音频内容呈现的是流媒体形式,用户可以通过时间刻度,检索或调 用音频的样本数据。如现在常见的音频录放程序接口。 ----中间层是声学特征级。声学特征是从音频数据中自动抽取的。一些听觉特征表达用 户对音频的感知,可以直接用于检索;一些特征用于语音的识别或检测,支持更高层的内容表示。另外还有音频的时空结构。 ----{zg}层是语义级,是音频内容、音频对象的概念级描述。具体来说,在这个级别 上,音频的内容是语音识别、检测、辨别的结果,音乐旋律和叙事的说明,以及音频对象和概念的描述。 ----后两层是基于内容的音频检索技术最关心的。在这两个层次上,用户可以提交概念 查询或按照听觉感知来查询。 ----音频的听觉特性决定其查询方式不同于常规的信息检索系统。基于内容的查询是一 种相似查询,它实际上是检索出与用户指定的要求非常相似的所有声音。查询中可以指定返回的声音数或相似度的大小。另外,可以强调或关闭(忽略)某些特征成 分,甚至可以施加逻辑“非”(或模糊的less匹配关系)来指定检索条件,检索那些不具有或少有某种特征成分(如指定没有“尖锐”或少有“尖锐”)的声 音。另外,还可以对给定的一组声音,按照声学特征进行排序,如按声音的嘈杂程度排序。 ----在查询接口上,用户可以采用以下形式提交查询: ----示例 用户选择一个声音例子表达其查询要求,查找出与该声音在某些特征方面相似的所有声音。如查询与飞机的轰鸣声相似的所有声音。 ----直喻 通过选择一些声学/感知物理特性来描述查询要求,如亮度、音调和音量等。这种方式与可视查询中的描绘查询相似。 ----拟声 发出与要查找的声音性质相似的声音来表达查询要求。如用户可以发出嗡嗡声来查找蜜蜂或电气嘈杂声。 ----主观特征 用个人的描述语言来描述声音。这需要训练系统理解这些描述术语的含义,如用户可能要寻找“欢快”的声音。 ----浏览 这是信息发现的一种重要手段,尤其是对于音频这种时基媒体。除了在分类的基础上浏览目录外,重要的是基于音频的结构进行浏览。 ----根据对音频媒体的划分可以知道,语音、音乐和其他声响具有显著不同的特性,因 而目前的处理方法可以分为相应的三种:处理包含语音的音频和不包含语音的音频,后者又把音乐单独划分出来。换句话说,{dy}种是利用自动语音识别技术,后两 种是利用更一般性的音频分析,以适合更广泛的音频媒体,如音乐和声音效果,当然也包含数字化语音信号。音频信息检索分为以下几方面: ----1.基于语音技术的检索 ----语音检索是以语音为中心的检索,采用语音识别等处理技术。如电台节目、电话交 谈、会议录音等。 ----基于语音技术的检索是利用语音处理技术检索音频信息。过去人们对语音信号处理 开展了大量的研究,许多成果可以用于语音检索。 ----(1)利用大词汇语音识别技术进行检索 ----这种方法是利用自动语音识别(ASR)技术把语音转换为文本,从而可以采用文 本检索方法进行检索。虽然好的连续语音识别系统在小心地操作下可以达到90%以上的词语正确度,但在实际应用中,如电话和新闻广播等,识别率并不高。即使 这样,ASR识别出来的脚本仍然对信息检索有用,这是因为检索任务只是匹配包含在音频数据中的查询词句,而不是要求一篇可读性好的文章。例如,采用这种方 法把视频的语音对话轨迹转换为文本脚本,然后组织成适合全文检索的形式支持检索。 ----(2)基于子词单元进行检索 ----当语音识别系统处理各方面无限制主题的大范围语音资料时,识别性能会变差,尤 其当一些专业词汇(如人名、地点)不在系统词库中时。一种变通的方法是利用子词(Sub Word)索引单元,当执行查询时,用户的查询首先被分解为子词 单元,然后将这些单元的特征与库中预先计算好的特征进行匹配。 ----(3)基于识别关键词进行检索 ----在无约束的语音中自动检测词或短语通常称为关键词的发现 (Spotting)。利用该技术,识别或标记出长段录音或音轨中反映用户感兴趣的事件,这些标记就可以用于检索。如通过捕捉体育比赛解说词中“进球”的 词语可以标记进球的内容。 ----(4)基于说话人的辨认进行分割 ----这种技术是简单地辨别出说话人话音的差别,而不是识别出说的是什么。它在合适 的环境中可以做到非常准确。利用这种技术,可以根据说话人的变化分割录音,并建立录音索引。如用这种技术检测视频或多媒体资源的声音轨迹中的说话人的变 化,建立索引和确定某种类型的结构(如对话)。例如,分割和分析会议录音,分割的区段对应于不同的说话人,可以方便地直接浏览长篇的会议资料。 ----2.音频检索 ----音频检索是以波形声音为对象的检索,这里的音频可以是汽车发动机声、雨声、鸟 叫声,也可以是语音和音乐等,这些音频都统一用声学特征来检索。 ----虽然ASR可以对语音内容给出有价值的线索,但是,还有大量其他的音频数据需 要处理,从声音效果到动物叫声以及合成声音等。因此,对于一般的音频,仅仅有语音技术是不够的,使用户能从大型音频数据库中或一段长录音中找到感兴趣的音 频内容是音频检索要做的事。音频数据的训练、分类和分割方便了音频数据库的浏览和查找,基于听觉特征的检索为用户提供高级的音频查询接口。这里指的音频检 索就是针对广泛的声音数据的检索,分析和检索的音频可以包含语音和音乐,但是采用的是更一般性的声学特性分析方法。 ----(1)声音训练和分类 ----通过训练来形成一个声音类。用户选择一些表达某类特性的声音例子(样本),如 “脚步声”。对于每个进入数据库中的声音,先计算其N维声学特征矢量,然后计算这些训练样本的平均矢量和协方差矩阵,这个均值和协方差就是用户训练得出的 表达某类声音的类模型。 ----声音分类是把声音按照预定的类组合。首先计算被分类声音与以上类模型的距离, 可以利用Euclidean或 Manhattan距离度量,然后距离值与门限(阈值)比较,以确定是否该声音纳入或不属于比较的声音类。也有某个声音不属于任何比较的类的情况发生,这 时可以建立新的类,或纳入一个“其他”类,或归并到距离最近的类中。 ----(2) 听觉检索 ----听觉感知特性,如基音和音高等,可以自动提取并用于听觉感知的检索,也可以提 取其他能够区分不同声音的声学特征,形成特征矢量用于查询。 ----例如,按时间片计算一组听觉感知特征:基音、响度、音调等。考虑到声音波形随 时间的变化,最终的特征矢量将是这些特征的统计值,例如用平均值、方差和自相关值表示。这种方法适合检索和对声音效果数据进行分类,如动物声、机器声、乐 器声、语音和其他自然声等。 ----(3)音频分割 ----以上方法适合单体声音的情况,如一小段电话铃声、汽车鸣笛声等。但是,一般的 情况是一段录音包含许多类型的声音,由多个部分组成。更为复杂的情况是,以上各种声音可能会混在一起,如一个有背景音乐的朗诵、同声翻译等。这需要在处理 单体声音之前先分割长段的音频录音。另外,还涉及到区分语音、音乐或其他声音。例如对电台新闻节目进行分割,分割出语音、静音、音乐、广告声和音乐背景上 的语音等。 ----通过信号的声学分析并查找声音的转变点就可以实现音频的分割。转变点是度量特 征突然改变的地方。转变点定义信号的区段,然后这些区段就可以作为单个的声音处理。例如,对一段音乐会的录音,可通过自动扫描找到鼓掌声音,以确定音乐片 断的边界。这些技术包括:暂停段检测、说话人改变检测、男女声辨别,以及其他的声学特征。 ----音频是时基线性媒体。现在我们看到的典型音频播放接口是与磁带录音机相似的界 面,具有停止、暂停、播放、快进、倒带等按钮。为了不丢失其中的重要东西,必须从头到尾听一遍声音文件,这样要花费很多时间,即使使用“快进”,也容易丢 失重要的片断,不能满足信息技术的要求。因此,在分割的基础上,就可以结构化表示音频的内容,建立超越常规的顺序浏览界面和基于内容的音频浏览接口。 ----3.音乐检索 ----音乐检索是以音乐为中心的检索,利用音乐的音符和旋律等音乐特性来检索。如检 索乐器、声乐作品等。 ----音乐是我们经常接触的媒体,像MIDI、MP3和各种压缩音乐制品、实时的音 乐广播等。音乐检索虽然可以利用文本注释,但音乐的旋律和感受并不都是可以用语言讲得清楚的。通过在查询中出示例子,基于内容的检索技术在某种程度上可以 解决这种问题。 ----音乐检索利用的是诸如节奏、音符、乐器特征。节奏是可度量的节拍,是音乐中一 种周期特性和表示。音乐的乐谱典型地以事件形式描述,如以起始时间、持续时间和一组声学参数(基音、音高、颤音等)来描述一个音乐事件。注意到许多特征是 随时间变化的,所以,我们应该用统计方法来度量音乐的特性。 ----人的音乐认知可以基于时间和频率模式,就像其他声音分析一样。时间结构的分析 基于振幅统计,得到现代音乐中的拍子。频谱分析获得音乐和声的基本频率,可以用这些基本频率进行音乐检索。有的方法是使用直接获得的节奏特征,即假设低音 乐器更适合提取节拍特征,通过归一化低音时间序列得到节奏特征矢量。 ----除了用示例进行音乐查询之外,用户甚至可以唱或哼出要查找的曲调。基音抽取算 法把这些录音转换成音符形式的表示,然后用于对音乐数据库的查询。但是,抽取乐谱这样的属性,哪怕是极其简单的一段也是非常困难的。研究人员现在改用 MIDI音乐数据格式解决这个问题。用户可以给出一个旋律查询,然后搜索 MIDI文件,就可以找出相似的旋律。 近期研究的问题
----在基于内容的多媒体检索研究中,许多方法是通过自动提取的媒体特征来检索的, 如图像中的颜色和纹理。现在的研究关注于语义级的检索,这需要一些语义分析或知识,例如分析注释或对象的标题、字幕等。而语义检索是理想的,因为它是人类 所希望的一种检索方式,但是,它需要高强度的人工注释,或者需要难以实现的复杂的自动内容分析。从图像中提取语义非常困难,例如,如果没有关键字的注释, 找出“长城”的照片非常困难,但现在的自动语音识别技术使音频检索可以达到语义级,可以自动识别出音频流中的词语,而xx可能自动定位到某人,他正在谈论 长城,或是真正找出有关长城的记录片或镜头。因此,音频检索具有其自身的优势,并且可以达到较好的效果。 ----在音频数据库领域,许多研究是有关语音方面的,因为语音是音频中一种重要的信 息载体。非语音的音频数据检索和混合系统方面的研究工作也开始引起重视。这项研究涉及多学科,包括语音识别、信息检索、音频分析、信号处理、心理声学、机 器学习等。 ----目前关注的研究问题有: ----集成的检索方法 把音频特征与视频检索技术以及其他媒体特征相结合,以提高检索效率和检索能力。 ---- WWW上基于内容的音频检索 需要研究快速的大规模音频库的浏览、检索和连续音频媒体的提交。 ----长音频的浏览和检索 结构化表示音频流,并设计出新形式的音频内容浏览界面。研究通用的基于片段级的内容检索,在时间轨迹上匹配一组特征,这需要研究模糊的匹配方法。 ----其他音频特征 继续研究有效的可区分性的听觉解析特征,以支持通用的和专用的音频检索问题。 ---- 用户的音频查询接口 需要一种友善的和易用的用户接口来提交音频查询,包括音频轨迹的可视表示、查询表达、交互和求精、结构化浏览等。 ----音频索引 多维特征索引结构的建立,以满足大容量数据库和WWW检索的要求。 |