语音搜索引擎 | 语音技术

🔍 真正的语音搜索引擎

人类录制声音的历史已经有100多年了，计算机技术的大发展使人类存储了海量的音像文件。传统语音检索本质上是文字检索，而采用音码语音技术的检索系统是真正的语音检索。

现有技术存在的问题

❌ 声音信息丢失

将音像中的语音识别成汉字，会丢失语音原有的音高、音强、音长等声音信息。如果想找声音宏亮一些的语音，需要调用音频文件，人工去听。

❌ 多音字与识别错误

汉字具有多音字或者是多字一音的特点，识别错误会导致文字检索不到或查找结果错误。

❌ 口语化发音无法记录

普通话发音只有400个音节，加上声调不超过1300个。而口语化的发音更丰富，比如"duang—"是没有对应汉字的象声词。目前主流语音识别系统不会识别喘气声、砸吧嘴声、笑声等。

❌ 本质仍是文字检索

拿到的检索结果还是多个音像大文件，需要一个一个文件去听，使用不方便。

❌ 无法合并相同发音

相同发音的语音可以合并，完全没有必要占用大量存储资源，也可以简化搜索结果。以现有语音技术做不到这一点。

音码语音检索系统流程

识别音码

将语音识别成音码
保留语速、音高、音强等信息

→

分割合并

分割成句为单位
语音特性一致的语句合并

→

检索查找

语音或文字输入
系统转成音码查找

→

直接使用

找到语音语句
直接使用结果

音码语音检索系统的优点

🎭

支持情感/音调检索

根据实际应用寻找具有特定音调和情感的词语，通过音码信息就能知道该发音的特点，不需要人工逐个音频去听。

🔄

同音词统一检索

找到的语音汉字可能不同，但由于发音相同，检索结果是一样的。比如"做一做"和"坐一坐"，搜索结果里会一起出现。

💎

丰富的发音表达

音码采用音标注释发音，能表达比汉字更丰富的发音，如汉字没有的字、喘气声、砸吧嘴声、笑声等。

🎯

真正的语音检索

拿到的检索结果是多个语句语音文件，可以快速使用，不需要绕道文字检索。

应用范围

📚

音像档案检索

为音像档案部门建立语音检索系统

👤

个人语音库

自动建立个人自然语音音码库

🎙️

朗读辅助

语音从业者的朗读辅助系统

✂️

音频编辑

为音频视频编辑提供丰富语音素材

💡 音码语音技术背景

目前主流的语音技术，采用文字作为媒介。语音识别时将语音识别成文字，丢失声音信息；语音合成时将文字转语音，无法表达非文字的语音信息。上海添力网络科技有限公司研发的音码语音技术可以很好地记录自然语音的丰富声音信息。用音码取代文字建立的音像资料搜索引擎，具有直观、效率高、速度快的特点。