一、实物图(型号:CN-TTS)
二、原理图
编号 | 颜色 | 名称 | 功能 |
1 | 红 | VCC | 电源正 |
2 | 黑 | GND | 电源地 |
3 | 白 | TXD | 串口发送引脚 |
4 | 黄 | RXD | 串口接收引脚 |
三、简介
语音合成又称文语转换(Text to Speech,TTS)技术,是语音处理领域的一个重要的研究方向,旨在让机器生成自然动听的人类语音。TTS技术采用自然语言处理、数字信号处理和语音合成等技术,将电子文字转化为口头发音,并通过扬声器、耳机或其他设备播放出来。
CN-TTS是一款高集成度的语音合成模块,可实现中文、英文、数字的语音合成,并且支持用户的命令词或提示音的定制需求。CN-TTS控制方式简单,是通过 TTL 串口发送 GBK 编码的形式,可兼容市面上主流 5V 或 3.3V 单片机,其基本原理与TTS技术相似,但在中文语音合成方面又有所不同。CN-TTS已经被广泛应用在各种语音交互场景中,例如自然语言对话系统、智能语音助手、虚拟主持人等。
四、工作原理
CN-TTS主要通过分词、语音预测模型和韵律特征融合等步骤,将中文文本转换成口头发音,并输出到硬件设备上。具体步骤如下:
1、分词:首先会将输入文本进行分词处理,将整段话切分为单个词语。
2、语音预测模型:构建文字到语音的映射模型,这是将文本转换为语音的关键步骤。这个模型包含两个部分:音素的概率模型和声学模型。其中音素概率模型会根据输入的文本中每个字的上下文信息来预测该字对应的音素序列;声学模型则用于计算每个音素的声音特征,并将其转化成语音信号。
3、韵律特征融合:在输出语音序列之前,需要将音素序列转化成实际的语音,同时还需要根据输入文本的韵律模式来调节声音的音高、音量和语速等特征。为了实现这些调节,CN-TTS通常采用基于机器学习方法的韵律特征融合技术,也就是把韵律和声讯特征结合起来,使其达到更好的人类听感效果。
4、语音合成输出:最后将经过处理的声学特征转化为模拟声波信号,再将其输出到扬声器或耳机中播放出来。
五、功能描述
1、支持任意中文、英文字母、阿拉伯数字的文本合成,并且支持中文、英文字母、数字的混读。
2、模块支持中文 GBK 编码集;支持大、小写英文字母。
3、模块采用UART通讯方式UART串口支持9600bps,发什么报什么,简单易用。
4、支持状态显示用户的控制器能够清楚地了解模块是否正在合成播报,还是空闲状态。
六、模块控制
1、语音合成控制
用户的 MCU 通过 UART 串口向 TTS 模块发送中文 GBK 码、英文或数字是 ASCII 码,进行语音合成播报。如 C 语言环境下,代码 printf(“大家好”); 可用于控制模块播报“大家好”这个内容,前提是串口配置好(9600,8,N,1)并通讯正常。
2、音效播报控制
8种音效,编号为0-7
发送“<Z>+编号” 控制播放内置音效。代码如:printf(“<Z>0”); 播报编号为 0 的音效。
3、音量设置
4级音量,音量等级为1-4
发送“<V>+音量等级” 设置音量播报。代码如:printf(“<V>3”); 设置音量为 3。系统默认为 4,为最高音量。
4、语速设置
3级语速,语速值为1-3
发送“<S>+语速值” 设置语速。代码如:printf(“<S>3”); 设置语速为 3。系统默认为 2,为中速。
5、设置上电提示
发送“<I>1”开启上电音效提示,“<I>0”则关闭上电音效提示。系统默认开启。
6、模块回传
模块在不同情形下通过 TX 脚向用户 MCU 发送不同的回传信息。