在这里插入图片描述

💎【行业认证·权威头衔】
✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者

🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"(2022-2024)
🎖 双冠加冕CSDN"年度博客之星TOP2"(2022&2023)
🎖 十余个技术社区年度杰出贡献奖得主

📚【知识宝库】
覆盖全栈技术矩阵:
◾ 编程语言:.NET/Java/Python/Go/Node…
◾ 移动生态:HarmonyOS/iOS/Android/小程序
◾ 前沿领域:物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发:Unity3D引擎深度解析


🚀前言

一系列 AI技术,让霍金创造了不开口也能说话的奇迹。
在这里插入图片描述

🚀一、语音合成的漫漫长路

语音合成,又称文本转语音(Text to Speech, TTS)技术,顾名思义,是一种将文本信息转换为人类可听语音的技术。与语音识别(ASR)相比,语音合成通常被认为在技术实现上相对简单,其发展历程也似乎印证了这一点。人类语音本质上是发音器官振动产生的声波,最早模拟人声的方式甚至可追溯至使用乐器仿声。到19世纪,机械式语音生成装置已经出现。

进入电子时代后,语音合成技术迎来重要突破。1939年,贝尔实验室的 H. 杜德利(H. Dudley)研制出世界上第一台电子语音合成器,采用共振峰合成原理——该技术至今仍被广泛使用。1960年,瑞典科学家冈纳·范特(Gunnar Fant)出版了奠基性著作《语音产生的声学理论》,为现代语音分析与合成奠定了理论基础,极大推动了语音合成技术的发展。

1980年,D. 克拉特(D. Klatt)设计出串/并联混合型共振峰合成器,能够模拟不同嗓音特征,进一步提升语音的自然度。20世纪80年代末,基音同步叠加(PSOLA)算法的提出,有效解决了语音段拼接中的韵律协调问题,显著改善了合成语音的流畅性。

随着20世纪90年代计算和存储能力的大幅提升,基于大语料库的单元挑选与波形拼接方法逐渐成为主流。该方法通过从真实人声录音中提取语音单元并进行拼接,可合成出高质量、接近自然人声的语音。

20世纪末,可训练语音合成方法(Trainable TTS)被提出,大幅降低了系统规模,使语音合成能够嵌入到移动设备中,并支持多语种合成需求。

进入21世纪,语音合成技术持续飞速发展。在实现接近真人发音水平的基础上,研究重点逐渐转向合成语音的音色多样性、情感表达及个性化设置,使生成的声音更加自然、富有表现力,更好地满足不同应用场景与人机交互需求。

Logo

讨论HarmonyOS开发技术,专注于API与组件、DevEco Studio、测试、元服务和应用上架分发等。

更多推荐