语言清晰度测量方法的前世今生

大家一定有类似经历 - 就是坐在会议室或礼堂却很难听清领导讲话；或者尽管自己英语水平很高，却听不清听力内容 - 这两年关于高考英语听力播出事故的新闻也屡见不鲜。

公共广播系统或扩声系统的语言清晰度/语言可懂度（Speech Intelligibility）非常重要，它不仅关系到人们能不能听清，更关乎生命。这类系统必须能在发生紧急情况时，向身处险境的人群播放清晰明了的逃生信息，否则后果不堪设想。
语言清晰度评估的是人们对语音信息的理解程度，量化这一概念的参数是语言传输指数（Speech Transmission Index）。为了科学地测量它，大神们可谓各显神通。

上帝说 - 必须测语言清晰度

人们首先想到的是主观测量方法。让一个经过训练的人读一定数目字词，而那些在具有代表性的位置上的人则分别写下他们认为已经明白的字词。然后统计分析他们记下的结果，以百分比的形式表示正确率。

这种方法最符合实际场景，但耗时耗力，花费巨大，目前除了科研目的，已经许久未曾听闻在实践中采用主观测量法了。

sls_neutrik_18-09_by_matthias_rhomberg_076

贝尔实验室说 - 要讲科学

时间回到 1940 年代，著名的贝尔实验室决定研究语言清晰度的客观测量技术。之后便诞生了许多成熟算法，比如 SII（语言清晰度指数）和各种形式的 STI（语言传输指数）。基于 STI 的方法被广泛使用。

*贝尔实验室，现代科技奠基石，现属诺基亚资产

STI 量测的基本思路是播放一个合成的测试信号来代替讲话人的声音。量测语言清晰度时需要获取并分析这个信号，这相当于主观量测时听众的耳朵。这一切都建立在对人类语音模型的大量分析研究上。具体过程不再赘述，没有相关学科背景也很难理解。

总之经过不懈努力，人们成功合成了测试信号 - 基于一个限宽男性语音频谱的随机噪声，并引入了调制传递函数（MTF）的概念用于分析。

用中文来讲就是：通过 MTF 可以定量分析测试信号到达听众耳朵时还保存了多少原始调制信息，再结合频率响应，心理声学效应等就可以确定语言清晰度。

*男性演讲者的平均倍频程带频谱

STI 方法从原理上解决了测量问题，可却难以在实践中使用。因为它要分析全部 7 个倍频程带以及每个倍频程带的 14 个调制函数，也就是测量一个 STI 值需要进行 14x7=98 次单独的测量，即便熟练工也需要花费 15 分钟。而且，它还要求整个系统的表现都是线性的，不能有压缩器这类设备存在，连风速都要求接近于零，这就有点过分了。