sherpa-onnx icefall k2 体系 funasr PyTorch 框架 之间的关系
大框架
深度学习底层框架
│
├── PyTorch
│
├── k2 (图计算 / FSA工具)
│ │
│ └── icefall (ASR训练框架)
│ │
│ └── sherpa / sherpa-onnx (推理部署框架)
│
└── FunASR (另一条 ASR 体系)
PyTorch:定位通用深度学习框架,所有模型最终都是基于它训练出来的。是所有体系共同底层。
如:在语音领域
icefall 使用 PyTorch
FunASR 使用 PyTorch
Whisper 使用 PyTorc
k2 体系:k定位语音识别专用数学计算库
https://k2-fsa.github.io/sherpa/onnx/python/install.html#method-1-from-pre-compiled-wheels-cpu-only
icefall: 定位基于 k2 的 ASR训练框架。ASR训练平台
如:小米团队的Zipformer asr模型基于它。
sherpa :定位ASR 部署推理框架。负责把训练好的模型 实际运行
sherpa-onnx:定位 sherpa 的轻量跨平台推理版本
FunASR:阿里语音识别完整体系,是一整套独立语音体系。
FunASR包含:
训练框架
推理框架
模型集合
FunASR = 训练 + 推理 + 模型一体化
现在模型太多了,很容易混乱。模型越来越多,每家公司都在发模型
所有模型 = 3大类 + 1个平台
① 通用大模型(多模态) -GPT‑5.4,Claude 4.5
② 专用模型(专项)- GPT‑5.3‑Codex(写代码)
③ 开源模型(自己可控)- LLaMA 3
④ 平台(把上面三种用好,内部调度多个模型)-Cursor,GitHub Copilot,ChatGPT
还有视觉,asr,编程,写文档,多模态等等,各家公司的
所有公司都在做这6件事,只是强项不同
AI能力 = 6大模块
① 文本/推理(大脑)
② 编程(工程能力)
③ 视觉(看图/视频)
④ 语音(ASR + TTS)
⑤ 多模态(统一理解)- 模型正在融合上面的所有能力
⑥ Agent(自动干活)
