1. 最紧凑、最轻量级的ASR模型:Vosk

网址:https://alphacephei.com/vosk/index.zh
模型文件:https://alphacephei.com/vosk/models

Image

在众多 ASR 工具中,Vosk 凭借以下核心优势脱颖而出: 1. 完全开源免费 Vosk 基于 Apache 2.0 协议开源,允许商业使用且无需支付授权费用,对个人开发者和中小企业非常友好。 2. 多语言全支持 内置对中文、英文、日文等 50 + 种语言的支持,且支持自定义语言模型,可满足全球化项目需求。 3. 轻量级高性能 模型体积小(最小仅 12MB),支持 CPU/GPU 运行,在树莓派等嵌入式设备上也能流畅运行,内存占用低于同类产品 30%。 4. 离线部署首选 无需联网即可完成语音识别,完美解决隐私敏感场景(如医疗、金融)的部署需求,数据安全有保障。 5. 高准确率低延迟 基于 Kaldi 语音识别框架优化,在嘈杂环境下识别准确率可达 95% 以上,实时识别延迟控制在 200ms 以内。

基于net Framework的示例程序(已验证):https://github.com/461239747/Simple_VoskAsr
示例:https://www.cnblogs.com/kingkie/p/17866863.html
https://www.xstplan.com/app/158.html

  1. whisper.net