第13部分(第1/4 页)
这种情况屡见不鲜。我希望有一部在“听力范围”之内的电脑,它必须能把说话的声音和周围的杂音(例如空调或飞机在头顶上飞过的声音)区分开来。
讲话胜于文字的另一个原因是,它可以有其他附带方式来传递信息。家里有小孩或养了宠物的人都知道,怎么样讲话可能比讲什么话更重要。说话的语气非常关键。例如,不管主人如何吹牛,说他、她宠爱的小狗如何如何,小狗似乎只对语调有反应,它内在的分析复杂词汇的能力基本为零。
说出来的话除了字面的意思之外,同时传递了大量的信息。讲话的时候,我们使用完全一样的字眼,可以表达或激情洋溢、或嘲讽、或愤怒、或闪烁暧昧、或曲意逢迎、或精疲力竭等等不同的情绪。在电脑语音识别的研究中,大家都忽略了这些细微的差异,更糟的是,把它们视为暇疵,而不是特点。然而,正是这些特质,使说话成为比打字更丰富的输入媒介。让电脑“听话”
假如你的外语能力还不错,但是还不到应对自如的地步,你会发现,要听懂饱受杂音干扰的新闻广播实在很困难。相反,对于一个能把外语说得极为流利的人而言,这些杂音充其量只是扰人罢了。识别语言和理解语言,二者密不可分。
目前,电脑无法像你我一样,先对某件事的意义建立共识,进而理解事物的意义。虽然未来的电脑无疑会具有更多智能,目前我们仍不得不先设法解决机器的语音识别能力问题,而把机器的理解力问题搁置一边。一旦把这两项任务予以分化,路该怎么走就很清楚了,我们必须把口语中的单字,变成电脑可读的命令(mand)。语音识别问题有三个变数:词汇量、机器对说话者的依赖程度以及字的关联性,所谓字的关联性,是指机器能在多大程度上依照人们日常讲话中的自然强弱节奏把单字含混在一起。
我们可以把语音识别的这三个方面想象成三维立体轴。在词汇轴上,需要识别的字越少,对电脑而言就越容易。假如系统事先就知道说话的人是谁,问题就更简单了。如果说话的人能一个字一个字分开发音,电脑就听得更明白,识别起来也就更容易。
在这三条轴的起始点,我们可以找到少得不能再少、完全依赖于说话者语音的词汇,念出这些词汇的时候,字与字之间必须有明——显——的——停——顿。
当我们顺着任何一条轴移动的时候,也就是说,增加电脑所能识别的词汇,让系统能够服务于任何说话者,或是容许字与字相连的程度越来越高,在这种情况下,每前进一步,都会使问题变得越来越困难。当到达三条轴的远端时,我们期望电脑能够识别任何人说的任何字,以及“印(任)何程度”的含混字。人们通常都认为,我们必须在两条或三条轴上都达到最远端时,语音识别系统才能对人类有用。这完全不对。
让我们一个一个来考虑。谈到词汇多寡的时候,我们可能会问:多少才算多呢,500、5000还是5
个字?但这个问题其实应该是:在任何时候,电脑存储器中究竟需要多少它可以识别的单字?这个问题提示我们把词汇根据上下文分成组,这样在需要的时候就可以把大群词组放进存储器中。当我要求我的电脑接听电话时,它会把信息输入我的电子电话本。当我计划到什么地方旅行时,它则把地名输入到上面。
假如你把词汇量看成在任何情况下都需要的一组字——称为“字窗”(wordwindows)一那么电脑只需要从一个小得多的字音库中拣字就可以了,这一字音库只要有500个字左右就够了,不需要5
个那么多。
人们所以假设需要有能够识别各个独立讲话人的语音识别系统,是由于这种功能是过去电话公司的一项要求,电话公司的中央电脑必须能听懂每个人的话,提供一种“通用服务”。今天,电脑的普及率更高,而且更加个人化。我们在网络的外围——通过个人电脑、话筒,或经由一小块智能卡(smartcard)的协助,能够完成更多的语音识别。如果我想在电话亭里和一部航空公司的电脑谈话,我可以先接通我的家用电脑或拿出我的袖珍型电脑,让它先替我把声音转换成机器看得懂的信号,然后,再和航空公司的电脑联络。
第三个问题是字音的模糊性问题。和电脑说话的时候,我们不希望像一个观光客对外国小孩说话一样,夸张地吐出每个单字,而且每念一个字,都停顿一下。因此这个轴最具挑战性。但是我们也可以把问题稍稍简化,也就是把语言看成许多字一起发出的声音,而不是许多单个字的声音。