语言清晰度测量方法的前世今生
大家一定有类似经历 - 就是坐在会议室或礼堂却很难听清领导讲话;或者尽管自己英语水平很高,却听不清听力内容 - 这两年关于高考英语听力播出事故的新闻也屡见不鲜。
公共广播系统或扩声系统的语言清晰度/语言可懂度(Speech Intelligibility)非常重要,它不仅关系到人们能不能听清,更关乎生命。这类系统必须能在发生紧急情况时,向身处险境的人群播放清晰明了的逃生信息,否则后果不堪设想。
语言清晰度评估的是人们对语音信息的理解程度,量化这一概念的参数是语言传输指数(Speech Transmission Index)。为了科学地测量它,大神们可谓各显神通。
上帝说 - 必须测语言清晰度
人们首先想到的是主观测量方法。让一个经过训练的人读一定数目字词,而那些在具有代表性的位置上的人则分别写下他们认为已经明白的字词。然后统计分析他们记下的结果,以百分比的形式表示正确率。
这种方法最符合实际场景,但耗时耗力,花费巨大,目前除了科研目的,已经许久未曾听闻在实践中采用主观测量法了。
贝尔实验室说 - 要讲科学
时间回到 1940 年代,著名的贝尔实验室决定研究语言清晰度的客观测量技术。之后便诞生了许多成熟算法,比如 SII(语言清晰度指数)和各种形式的 STI(语言传输指数)。基于 STI 的方法被广泛使用。
*贝尔实验室,现代科技奠基石,现属诺基亚资产
STI 量测的基本思路是播放一个合成的测试信号来代替讲话人的声音。量测语言清晰度时需要获取并分析这个信号,这相当于主观量测时听众的耳朵。这一切都建立在对人类语音模型的大量分析研究上。具体过程不再赘述,没有相关学科背景也很难理解。
总之经过不懈努力,人们成功合成了测试信号 - 基于一个限宽男性语音频谱的随机噪声,并引入了调制传递函数(MTF)的概念用于分析。
用中文来讲就是:通过 MTF 可以定量分析测试信号到达听众耳朵时还保存了多少原始调制信息,再结合频率响应,心理声学效应等就可以确定语言清晰度。
STI 方法从原理上解决了测量问题,可却难以在实践中使用。因为它要分析全部 7 个倍频程带以及每个倍频程带的 14 个调制函数,也就是测量一个 STI 值需要进行 14x7=98 次单独的测量,即便熟练工也需要花费 15 分钟。而且,它还要求整个系统的表现都是线性的,不能有压缩器这类设备存在,连风速都要求接近于零,这就有点过分了。
*STI 涵盖了所有 14 个调制频率和 7 个倍频程带,因此一共有 14 X 7=98 个调制指数结果
房间声学语言传输指数 RASTI - 简化一下吧
RASTI 专为特殊情况开发,比如验证讲话者在无回声的小房间内的发言,其不适用于电声系统。开发 RASTI 的目的是缩短每个 STI 测量的时间。
但无论是综合测试能力还是抗干扰能力,RASTI 都有妥协。这也导致 RASTI 和主观验证的 STI 之间一致性很差。但很长一段时间内,RASTI 都是便携式仪器唯一可选的语言清晰度测量方法,并被用于测量航空工业中的广播系统。
STI 方法从原理上解决了测量问题,可却难以在实践中使用。因为它要分析全部 7 个倍频程带以及每个倍频程带的 14 个调制函数,也就是测量一个 STI 值需要进行 14x7=98 次单独的测量,即便熟练工也需要花费 15 分钟。而且,它还要求整个系统的表现都是线性的,不能有压缩器这类设备存在,连风速都要求接近于零,这就有点过分了。
*RASTI 只采集完整 MTF 表中的少数片段,代表了极度简化的 STI
随着IEC 60268-16:2011,4.0版标准的生效,RASTI 不再是语言清晰度测量所认可的方法。
TNO 研究院和 BOSE 登场 - 我行我上
人们对安全问题的日益关注,新技术的发展以及 RASTI 方法的缺陷,促使扬声器制造商 BOSE 和荷兰 TNO 研究院等开发测量公共广播系统语言清晰度的全新方法。
*音频先驱博士博士,主动降噪的概念也由其提出
STIPA(公共广播系统语言传输指数)由此诞生,它允许使用便携式设备快速精确地测量语言传输指数。STIPA 通过简化的流程测量 MTF。但 STIPA 方法分析了全部七个频带得出一个 MTF 值,其中每个频带经两个频率调制。
在没有严重的环境噪声以及大量非线性失真时,STIPA 结果精度与完整的 STI 方法一致性可达 99%。