人类录制声音的历史已经有100多年了,计算机技术的大发展使人类存储了海量的音像文件。 传统语音检索本质上是文字检索, 而采用音码语音技术的检索系统是真正的语音检索。
将音像中的语音识别成汉字,会丢失语音原有的音高、音强、音长等声音信息。如果想找声音宏亮一些的语音,需要调用音频文件,人工去听。
汉字具有多音字或者是多字一音的特点,识别错误会导致文字检索不到或查找结果错误。
普通话发音只有400个音节,加上声调不超过1300个。而口语化的发音更丰富,比如"duang—"是没有对应汉字的象声词。目前主流语音识别系统不会识别喘气声、砸吧嘴声、笑声等。
拿到的检索结果还是多个音像大文件,需要一个一个文件去听,使用不方便。
相同发音的语音可以合并,完全没有必要占用大量存储资源,也可以简化搜索结果。以现有语音技术做不到这一点。
根据实际应用寻找具有特定音调和情感的词语,通过音码信息就能知道该发音的特点,不需要人工逐个音频去听。
找到的语音汉字可能不同,但由于发音相同,检索结果是一样的。比如"做一做"和"坐一坐",搜索结果里会一起出现。
音码采用音标注释发音,能表达比汉字更丰富的发音,如汉字没有的字、喘气声、砸吧嘴声、笑声等。
拿到的检索结果是多个语句语音文件,可以快速使用,不需要绕道文字检索。
目前主流的语音技术,采用文字作为媒介。语音识别时将语音识别成文字,丢失声音信息;语音合成时将文字转语音,无法表达非文字的语音信息。 上海添力网络科技有限公司研发的音码语音技术可以很好地记录自然语音的丰富声音信息。 用音码取代文字建立的音像资料搜索引擎,具有直观、效率高、速度快的特点。