C# 文本转语音方法 C#如何实现TTS功能

来源:这里教程网 时间:2026-02-21 17:42:06 作者:

SpeechSynthesizer
是最直接的 Windows 原生方案

Windows 自带的

System.Speech
命名空间提供了轻量、无需联网、低延迟的 TTS 实现,适合桌面应用。它依赖系统已安装的语音引擎(如 Microsoft David/Zira),不需额外 SDK 或 API Key。

注意:.NET Core 3.0+ 和 .NET 5+ 默认不包含该类库,必须显式安装

System.Speech
NuGet 包(仅支持 Windows 平台)。

添加引用:
using System.Speech.Synthesis;
基础用法:
var synth = new SpeechSynthesizer();
synth.Speak("你好,这是本地语音合成");
可选语音:
synth.SelectVoice("Microsoft Zira Desktop")
,用
synth.GetInstalledVoices()
查看可用列表
避免阻塞 UI:调用
SpeakAsync()
而非
Speak()
,尤其在 WinForms/WPF 中

跨平台需求下优先考虑
Microsoft.CognitiveServices.Speech
SDK

如果目标是 macOS/Linux、UWP、或需要更自然语音(如 Neural TTS)、多语言/情感控制、语音事件回调等能力,

Microsoft.CognitiveServices.Speech
是唯一推荐的现代选择。

它基于 Azure 语音服务,需申请订阅密钥和区域(如

eastus
),但免费层每月有 0.5 百万字符额度,够小项目起步。

安装 NuGet:
Microsoft.CognitiveServices.Speech
关键初始化:
var config = SpeechConfig.FromSubscription("your-key", "eastus");
config.SpeechSynthesisVoiceName = "en-US-JennyNeural"; // 必须显式指定 Neural 语音
合成到文件:
config.SetOutputFormat(SpeechSynthesisOutputFormat.Audio16Khz32KBitRateMonoMp3)
注意:
SpeechSynthesizer
(SDK 中)和
System.Speech.Synthesis.SpeechSynthesizer
(原生)同名但完全无关,别混淆命名空间

常见报错:找不到语音、静音、或“Access is denied”

这些基本都指向权限或配置问题,不是代码逻辑错误。

Access is denied
:Windows 下
SpeechSynthesizer
需要 COM 权限,WPF/WinForms 应用若以“管理员身份运行”可能反而失败——改用普通权限启动
静音/无声:检查系统声音设置是否关闭、默认播放设备是否被禁用;
SpeechSynthesizer
不会自动弹出音量控制,它直通系统音频栈
“Voice not found”:调用
SelectVoice()
前务必先用
GetInstalledVoices()
确认名称拼写,Zira 和 David 在 Win10/Win11 中默认存在,但中文语音(如
Microsoft Huihui Desktop
)需手动启用“语言包”
.NET 6+ 控制台项目默认为单线程单元(STA),而
SpeechSynthesizer
要求多线程单元(MTA)——加
[STAThread]
属性或改用 WPF/WinForms 宿主

生成语音文件时别忽略音频格式与编码兼容性

本地

SpeechSynthesizer
只支持 WAV 输出(
SetOutputToWaveFile()
),且固定为 PCM 16bit 小端,采样率 22050Hz;Azure SDK 则支持 MP3/WAV/OGG,但不同格式对
SpeechSynthesisOutputFormat
枚举值敏感。

WAV 文件体积大(约 1.7MB/分钟),MP3 更实用;但
Audio16Khz32KBitRateMonoMp3
在某些旧版 Windows 上可能无法播放(缺少解码器)
Azure SDK 中,
Audio24Khz160KBitRateMonoMp3
是目前音质与兼容性较平衡的选择
若需后台持续合成,用
SynthesizeToStreamAsync()
获取
MemoryStream
,避免磁盘 I/O 成为瓶颈
真正卡住人的往往不是“怎么念出来”,而是语音引擎没装、权限没开、或者以为能跨平台却用了 Windows-only 类型。确认平台、查清依赖、先跑通一个
Speak("test")
再扩展功能,比堆参数更有效。

相关推荐