用 SpeechSynthesizer
是最直接的 Windows 原生方案
Windows 自带的
System.Speech命名空间提供了轻量、无需联网、低延迟的 TTS 实现,适合桌面应用。它依赖系统已安装的语音引擎(如 Microsoft David/Zira),不需额外 SDK 或 API Key。
注意:.NET Core 3.0+ 和 .NET 5+ 默认不包含该类库,必须显式安装
System.SpeechNuGet 包(仅支持 Windows 平台)。 添加引用:
using System.Speech.Synthesis;基础用法:
var synth = new SpeechSynthesizer();
synth.Speak("你好,这是本地语音合成");
可选语音:synth.SelectVoice("Microsoft Zira Desktop"),用 synth.GetInstalledVoices()查看可用列表 避免阻塞 UI:调用
SpeakAsync()而非
Speak(),尤其在 WinForms/WPF 中
跨平台需求下优先考虑 Microsoft.CognitiveServices.Speech
SDK
如果目标是 macOS/Linux、UWP、或需要更自然语音(如 Neural TTS)、多语言/情感控制、语音事件回调等能力,
Microsoft.CognitiveServices.Speech是唯一推荐的现代选择。
它基于 Azure 语音服务,需申请订阅密钥和区域(如
eastus),但免费层每月有 0.5 百万字符额度,够小项目起步。 安装 NuGet:
Microsoft.CognitiveServices.Speech关键初始化:
var config = SpeechConfig.FromSubscription("your-key", "eastus");
config.SpeechSynthesisVoiceName = "en-US-JennyNeural"; // 必须显式指定 Neural 语音
合成到文件:config.SetOutputFormat(SpeechSynthesisOutputFormat.Audio16Khz32KBitRateMonoMp3)注意:
SpeechSynthesizer(SDK 中)和
System.Speech.Synthesis.SpeechSynthesizer(原生)同名但完全无关,别混淆命名空间
常见报错:找不到语音、静音、或“Access is denied”
这些基本都指向权限或配置问题,不是代码逻辑错误。
Access is denied:Windows 下
SpeechSynthesizer需要 COM 权限,WPF/WinForms 应用若以“管理员身份运行”可能反而失败——改用普通权限启动 静音/无声:检查系统声音设置是否关闭、默认播放设备是否被禁用;
SpeechSynthesizer不会自动弹出音量控制,它直通系统音频栈 “Voice not found”:调用
SelectVoice()前务必先用
GetInstalledVoices()确认名称拼写,Zira 和 David 在 Win10/Win11 中默认存在,但中文语音(如
Microsoft Huihui Desktop)需手动启用“语言包” .NET 6+ 控制台项目默认为单线程单元(STA),而
SpeechSynthesizer要求多线程单元(MTA)——加
[STAThread]属性或改用 WPF/WinForms 宿主
生成语音文件时别忽略音频格式与编码兼容性
本地
SpeechSynthesizer只支持 WAV 输出(
SetOutputToWaveFile()),且固定为 PCM 16bit 小端,采样率 22050Hz;Azure SDK 则支持 MP3/WAV/OGG,但不同格式对
SpeechSynthesisOutputFormat枚举值敏感。 WAV 文件体积大(约 1.7MB/分钟),MP3 更实用;但
Audio16Khz32KBitRateMonoMp3在某些旧版 Windows 上可能无法播放(缺少解码器) Azure SDK 中,
Audio24Khz160KBitRateMonoMp3是目前音质与兼容性较平衡的选择 若需后台持续合成,用
SynthesizeToStreamAsync()获取
MemoryStream,避免磁盘 I/O 成为瓶颈 真正卡住人的往往不是“怎么念出来”,而是语音引擎没装、权限没开、或者以为能跨平台却用了 Windows-only 类型。确认平台、查清依赖、先跑通一个
Speak("test") 再扩展功能,比堆参数更有效。 